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本 书 是 一 本 面向 应 用 的 入 门 级 综合 性 数据 库 教 材 ， 通 过 直观 易 懂 的 方式 讲解 操作 型 数据 库 和 分 析 型 数据 
库 。 教 材 内 容 经 过 多 年 的 课堂 教学 和 就 业 实践 ， 不 断 修 订 和 改进 ， 学 生 获 益 良 多 ， 用 人 单位 好 评 如 潮 。 


本 书 特点 

@ 内 容 全 面 ， 理 论 清 晰 。 详 细 解 析 操 作 型 数据 库 和 分 析 型 数据 库 的 基本 概念 、 设 计 方 法 和 使 用 技巧 ， 简 要 
介绍 数据 挖掘 、NoSQL 数 据 库 等 高 级 主题 ， 结 合 丰富 的 习题 和 案例 帮助 学 生 掌握 基础 知识 。 

@ 面向 实战 ， 重 视 应 用 。 针 对 当今 快速 变化 的 市 场 需求 ， 培 养 学 生 设 计 和 使 用 数据 库 的 能 力 ， 重 点 是 学 会 
如 何 将 理论 知识 成 功 地 应 用 到 信息 系统 、 商 业 数据 分 析 和 决策 支持 等 应 用 环境 中 ， 真 正 实 现 学 以 致 用 。 

@ 资源 丰富 ， 免 费 实用 。 访 问 dbtextbook.com 获取 免费 资源 : 专门 为 本 书 开发 的 基于 Web 的 数据 建 模 套 
件 ERDPIlus ， 可 创建 ER 图 、 关 系 模 式 和 维度 模型 等 ; SQL 脚本 和 数据 集 ; DBMS 软 件 使 用 指导 ; 作者 电 
子 邮箱 。 
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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ;也 正 是 这 样 的 优 热 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 春 出 、 独 领 风 又 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 的 现状 下 ， 美国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 二 年 间 积 汪 和 发 展 的 经 典 教 材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华 草 公 司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 
就 将 工作 重点 放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill，Elsevier，MIT，John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良 
好 的 合作 关系 , 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum ，Bjarne Stroustrup， 
Brain W. Kernighan, Dennis Ritchie, Jim Gray，Afred V. Aho, John E. Hopcroft, Jeffrey 
D. Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, 
Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 从 书 ” 为 总 称 出 版 ， 供 读者 
学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 
深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ,我们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 

华章 网 站 : www.hzbook.com 

电子 邮件 : hzjsj@hzbook.com 

联系 电话 : ( 010 ) 88379604 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 华章 教育 

邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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数据 库 技 术 诞生 于 20 世纪 60 年 代 ， 现 已 发 展 成 为 一 门 内 容 丰 富 的 学 科 ， 形 成 总 产值 
达 数 百 亿美 元 的 产业 。 随 着 大 数据 时 代 的 来 临 ， 数 据 库 技术 正 以 惊人 的 速度 将 现实 世界 中 的 
言 息 转 化 为 数据 存储 到 各 类 计算 机 系统 中 ， 而 且 这 一 过 程 的 发 展 态势 可 能 超出 人 类 的 有 限 预 
想 。 其 中 区 含 的 不 仅 是 自然 和 生命 ， 还 有 人 类 的 行为 、 情 感 和 历史 。 同 我 们 生存 其 中 的 真实 
自然 界 一 样 ， 新 兴 的 “数据 自然 界 ” 中 也 潜藏 着 无 尽 的 奥秘 和 巨大 的 财富 ， 因 此 吸引 着 大 批 
科学 界 、 人 文 界 及 商界 的 学 者 和 技术 人 员 投 身 其 中 。 正 确 解读 和 有 效 利用 这 些 数 据 是 新 技术 
革命 时 代 指 引 人 类 前 行 的 灯塔 。 

本 书 的 基本 内 容 包 括 10 个 章节 及 10 个 附录 。 第 1 一 6 章 主 要 介绍 操作 型 数据 库 ， 第 
7 一 9 章 介绍 分 析 型 数据 库 、 数 据 仓库 与 数据 集 市 的 相关 内 容 ， 第 10 章 从 一 个 更 高 的 视角 
给 出 数据 库 管 理 相关 概述 。 本 书 由 浅 入 深 ， 由 数据 库 的 基本 概念 论 及 数据 库 的 现状 ,最 后 对 
数据 库 技术 的 发 展 趋势 进行 展望 ,讲解 过 程 中 注重 理论 联系 实际 ,， 令 读者 的 学 习 和 理解 更 为 
深刻 和 透彻 。 本 书 既 可 作为 初学 者 的 入 门 教程 ， 也 可 供 较 有 经 验 的 用 户 人 借鉴， 特别 适合 作为 
大 学 本 科 生 数据 库 课 程 的 参考 读物 ， 

本 书 的 翻译 工作 是 在 极其 紧张 的 条 件 下 ， 经 过 所 有 团队 成 员 的 艰辛 拼搏 最 终 完成 的 ， 其 
中 凝聚 着 每 位 参与 者 的 真诚 与 责任 。 翻 译 工 作 由 四 川 大 学 李 川 副教授 统一 负责 ， 刘 一 静 老 师 
协助 进行 最 终 统 稿 ， 参 与 人 员 还 有 吴 诗 极 、 肾 章 艳 、 张 永 辉 、 李 艳 梅 、 谢 世 娜 等 。 大 家 在 
假日 加 班 工作 ， 对 译文 字 雕 句 琢 ， 最 终 有 了 本 书 的 诞生 。 机 械 工 业 出 版 社 的 编辑 在 本 书 的 出 
版 过 程 中 给 予 我 们 大 力 支 持 和 理解 ， 没 有 他 们 的 奉献 ， 也 不 可 能 有 本 书 的 面世 。 

尽管 译 者 心 正 意 诚 ， 然 则 受 限 于 自身 水 平 ， 本 书 一 定 存在 不 少 问题 ， 还 期 望 各 位 读者 给 
予 批评 指正 ， 各 位 的 反馈 将 使 本 书 更 趋 完善 。 最 后 ， 真 诚 期 望 本 书 对 大 家 有 益 ， 这 是 对 我 们 
翻译 工作 的 最 大 认可 ! 


译 者 
2014 年 12 月 9 日 夜 
于 四 川 大 学 家 中 
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本 书 是 一 本 和信 门 级 的 综合 性 数据 库 教材 ， 适 用 于 研究 生 或 本 科 生 的 信息 系统 数据 库 这 
程 。 虽然 选择 本 书 作 为 教材 的 学 生 大 多 已 经 掌握 了 一 定 的 信息 系统 基础 知识 ， 然 而 从 本 书 的 
内 容 安排 来 看 ， 它 依然 适用 于 那些 没有 预 修 相关 基础 课程 的 学 生 。 每 章 中 都 包含 必要 的 引 
言 ， 之 后 再 详细 介绍 数据 库 各 方面 的 知识 ， 旨 在 站 在 数据 库 专 家 的 高 度 ， 为 读者 和 用 户 讲解 
数据 库 知 识 。 


操作 型 数据 库 和 分 析 型 数据 库 


当今 的 实用 领域 ， 如 信息 系统 、 商 业 数 据 分 析 及 决策 支持 查询 等 ， 都 同时 需要 操作 型 和 
分 析 型 两 种 数据 库 系 统 功 能 。 本 书 在 介绍 这 两 种 类 型 的 数据 库 时 兼 具 时 效 性 、 理 论 性 和 实用 
性 的 特点 。 和 采用 本 书 作 为 教材 的 学 生 ， 将 学 会 如 何 设计 和 使 用 操作 型 和 分 析 型 数据 库 ， 并 将 
所 学 内 容 运 用 到 现今 的 商业 环境 。 

操作 型 数据 库 和 分 析 型 数据 库 都 是 目前 信息 系统 研究 的 主流 ， 因 此 应 采取 的 教学 方法 
是 : 即使 应 用 环境 仅 涉及 其 中 一 种 类 型 ,我们 也 将 以 一 种 有 意义 的 方式 同时 讲授 两 种 类 型 的 
数据 库 知 识 。 根 据 我 们 的 想法 和 经 验 ， 采 用 本 书 作为 教材 可 以 实现 简单 明了 的 教学 。 我 们 已 
基于 这 本 教材 进行 了 多 年 的 数据 库 课 程 教学 (包括 本 科 生 教学 和 研究生 教学 ， 涵 盖 学 期 授课 
和 季度 授课 )， 每 次 都 能 实现 预定 的 教学 目标 ， 并 且 好 评 如 潮 。 此 外 ， 我 们 还 收 到 大 批 已 毕 
业 或 在 读 的 本 科 生 、 研 究 生 以 及 用 人 单位 (包括 实习 和 全 职 ) 的 书面 反馈 ， 证 明 学 习 过 这 门 
课程 的 学 生 在 面临 有 数据 库 相关 技能 需求 的 公司 招聘 时 胸有成竹 。 


本 书 特点 


本 书 将 所 有 关于 设计 和 使 用 操作 型 、 分 析 型 数据 库 的 基本 内 容 分 为 10 章 及 10 个 附录 。 

第 1 一 6 章 主要 介绍 操作 型 数据 库 以 及 一 些 数据 库 基本 问题 ,包括 : 数据 库 需 求 、ER 
建 模 、 关 系 建 模 、 数 据 库 约束 、 更 新 异常 、 规 范 化 、SQL 语言 、 数 据 库 前 端 、 数 据 质 量 问题 。 

第 7 ~ 9 章 主 要 介绍 分 析 型 数据 库 、 数 据 仓 库 与 数据 集 市 的 相关 内 容 ， 包 括 : 数据 仓库 
概念 、 维 度 建 模 ( 星 形 模式 )、 数 据 仓库 /数据 集 市 建 模 方法 、 提 取 / 转换/ 加 载 (ETL) 处 
理 、 在 线 分 析 处 理 (OLAP) / 商务 智能 (BI) 功能、 数据 仓库 /数据 集 市 前 端 。 

第 10 章 从 一 个 更 高 的 视角 (忽略 细节 ) 给 出 数据 库 管 理 相关 概述 。 

附录 (A、B、C、D、E、F、G、H、!、J) 中 是 一 些 其 他 数据 库 相 关 主 题 的 概述 ， 包 
括 : 扩展 ER 建 模 (EER)、 更 高 范式 (高 于 第 三 范式 )、 企 业 资 源 计 划 (ERP)、 数 据 管理 和 
主 数 据 管 理 、 面 向 对 象 数 据 库 、 分 布 式 数 据 库 、 并 行 数据 库 、 云 计算 、 数 据 挖 据 、XML、 
NoSQL 数据 库 、 大 数据 。 

在 本 书 的 网 站 中 ， 可 以 得 到 一 个 免费 的 基于 Web 的 数据 建 模 套件 ERDPlus ( erdplus. 
com)， 该 套件 是 结合 本 书 内 容 设计 和 开发 的 。 学 生 和 教师 可 以 利用 该 套件 ， 特 别 是 套件 里 
针对 学 术 研 究 的 设置 来 创建 ER 图 、 关 系 模式 及 维度 模型 ( 星 形 模式 )。 我 们 鼓励 教师 和 学 
生 尝 试 该 数据 建 模 套件 ， 体 验 其 简洁 性 、 易 用 性 、 轻 便 性 及 学 术 研 究 适用 性 。 当 然 ， 也 欢迎 
教师 和 学 生 使 用 其 他 工具 来 创建 ER 图 、 关 系 卉 型 及 维度 模型 。 本 书 中 所 包含 的 练习 可 以 用 
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ERDPlus 完成 ， 也 可 以 通过 其 他 建 模 工具 和 方法 (如 Visio、ERwin、ER/Studio、MS Word、 
MS Excel、MS PowerPoint、free drawing 等 ) 完成 。 


配套 资源 


本 书 还 有 一 些 专 为 教师 和 学 生 准 备 的 配套 资源 ， 内 容 如 下 。 
配套 网 站 (dbtextbook.com)， 包括 : 
e ERDPlus 的 链接 ， 它 是 一 个 数据 建 模 套 件 (结合 本 书 内 容 开发 )。 
e SQL 脚本 及 数据 集 。 z 
e 关于 免费 得 到 DBMS 和 OLAP/BI 软件 的 教程 。 
e 本 书 作 者 的 邮箱 。 
教师 资源 网 站 (www.pearsonhighered.com/jukic) 2， 包括: 
e PPT (快速 版 、 经 典 版 及 完全 版 )。 
e 教师 手册 ， 包 括 : 
e 各 章 最 后 的 复习 题 、 练 习 及 小 案例 的 答案 。 
e 额外 的 练习 题 ( 配 有 答案 ) 。 
e 教学 大 纲 及 教学 计划 。 
e 教学 方案 。 
e 测试 题 文 件 ， 内 容 为 涵盖 各 章节 内 容 的 测试 问题 集 ， 问 题 形 式 包 括 多 项 选择 题 、 判 
断 题 、 简 答题 ， 每 一 道 题目 都 有 相应 章节 的 索引 及 难度 等 级 。 
智能 课堂 电子 教材 
智能 课堂 电子 教材 ( CourseSmart eTextbook) 可 以 节省 学 生 购 买 教材 或 商家 推荐 教材 的 
开销 。 学 生 可 以 使 用 主流 信用 卡 获 得 所 需 课程 的 全 部 讲授 内 容 ， 课 程 教材 可 以 通过 书 名 、 作 
者 来 查找 。 使 用 智能 课堂 电子 教材 ， 学 生 能 够 搜索 特定 的 关键 词 或 页 码 ， 在 线 作 标记 ， 打 印 
带 有 课堂 记录 的 读书 作业 ， 并 能 标记 出 重要 章节 以 方便 复习 。 想 获取 更 多 信息 或 购买 智能 课 
党 电子 教材 ， 请 访问 www.coursesmart.com。 
教学 方法 
本 书 集 合 了 描述 清晰 的 理论 概念 、 简 单 易 懂 的 实例 、 广 泛 且 具有 普 适 性 的 实用 构件 。 对 
于 学 生 需 要 掌握 的 每 一 项 技能 ， 每 一 章 最 后 都 提供 了 大 量 相 应 的 练习 和 小 案例 。 
在 大 多 数 章 末 都 有 标题 为 “问题 说 明 ” 的 部 分 ， 这 部 分 内 容 可 作为 额外 主题 进行 选择 阅 


读 或 是 作为 相同 主题 的 内 容 延 伸 (取决 于 课程 难度 及 课程 时 间 )。 
下 面 给 出 各 章 教 学 安排 的 概述 。 


第 1 章 引言 


主要 内 容 : 本 章 给 出 各 章 内 容 的 快速 概览 : 数据 库 相 关 的 基本 术语 、 概 念 及 组 件 ， 如 数 
据 和 信息 、 数 据 库 管理 系统 (DBMS)、 数 据 库 系统 开发 步骤 ， 以 及 操作 型 数据 库 与 分 析 型 数 
据 库 的 对 比 。 


昌 关于 本 书 教 辅 资源 ， 用 书 教师 可 向 培 生 教育 出 版 集团 北京 代表 处 申请 ， 电 话 : 010-57355169/57355171， 电 子 
编辑 注 





邮件 :service.cn(@pearson.com。 
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教学 方法 : 这 一 章 采用 了 简短 的 描述 和 简明 的 实例 ， 目 的 是 简要 地 给 出 本 书 的 总 框架 ， 
为 后 面 的 章节 做 好 铺垫 。 


第 2 章 数据 库 需 求 与 ER 建 模 


主要 内 容 : 实体 - 联系 ( ER) 建 模 是 将 用 户 数 据 库 需求 形式 化 的 一 种 概念 化 方法 ， 本 章 
将 对 其 进行 全 面 介绍 。 本 章 应 用 了 陈 氏 ER 标记 的 一 种 变形 版 本 ， 当 然 ， 其 他 标记 方法 和 概 
含 数据 建 模 方法 也 有 提 及 。 本 章 强 调 ER 建 模 的 目的 是 收集 并 可 视 化 用 户 需求 。 本 章 将 介绍 
ER 模型 的 各 种 组 件 : 实体 (包括 弱 实 体 )、 属 性 (常规 属性 、 单 一 属性 、 复 合 属性 、 多 值 属 
性 、 派 生 属性 )， 以 及 一 对 一 、 一 对 多 、 多 对 多 联系 (二 元 或 一 元 )。 

附加 内 容 : 章 末 探讨 了 ER 建 模 方面 的 一 些 更 深入 的 问题 (在 相同 实体 之 间 的 多 实例 多 
对 多 联系 、 联 合 实体 ， 以 及 三 元 或 更 高 元 的 联系 )。 

教学 方法 : 本 章 内 容 基 于 实例 ， 针 对 需求 收集 和 ER 模型 创建 提供 了 相应 的 综合 案例 。 
通过 本 章 的 练习 、 小 案例 以 及 免费 软件 ( ERDPlus_ER 图 功能 ) 强化 所 介绍 的 概念 。 这 一 章 
的 目的 是 让 学 生 对 ER 建 模 相 关 的 描述 性 概念 以 及 需求 可 视 化 有 深入 了 解 ， 并 通过 大 量 实用 
练习 来 强化 这 些 内 容 . 


第 3 章 关系 数据 库 建 模 


主要 内 容 : 本 章 全 面 介 绍 了 关系 数据 库 模型 ， 包 括 关系 概念 、 关 系 模式 、 完 整 性 约束 及 
用 户 自 定义 约束 。 此 外 ， 还 讲解 了 将 ER 图 (实体 、 属 性 以 及 一 元 和 二 元 的 一 对 一 、 一 对 多 、 
多 对 多 联系 ) 映射 为 关系 模式 的 过 程 。 

附加 内 容 : 章 末 探讨 了 关于 关系 数据 库 建 模 的 一 些 更 深入 的 问题 (映射 关联 实体 、 映 射 
三 元 联系 、 设 计 者 创建 的 主 码 和 自动 编号 选项 、ER 建 模 :和 关系 建 模 的 必要 性 )。 

教学 方法 : 这 一 革 的 教学 基于 实例 说 明 ER 图 概念 的 映射 过 程 及 关系 模式 的 创建 过 程 。 
本 草 的 练习 、 小 案例 及 免费 软件 ( ERDPlus- 关系 模式 功能 ) 强化 了 本 章 所 介绍 的 内 容 。 这 一 
章 的 目的 是 让 学 生 对 关系 数据 库 建 模 概念 有 深 人 了 解 ， 并且 通 过 大 量 练习 来 强化 这 些 内 容 。 


第 4 章 更 新 操作 、 更 新 异常 与 规范 化 


主要 内 容 : 本 章 介 绍 了 更 新 操作 (插入 、 删 除 和 修改 )、 规 范 化 和 更 新 异常 (以 此 说 明 规 
范 化 的 必要 性 )， 介 绍 和 探讨 了 函数 依赖 的 概念 ， 同 时 还 介绍 了 第 一 范式 (INF)、 第 二 范式 
( 2NF) 及 第 三 范式 (3NF)( 其 他 范式 的 介绍 可 以 在 附录 B 中 找到 )。 

附加 内 容 : 章 末 探讨 了 有 关 规 范 化 的 更 深入 的 问题 (规范 化 例外 、 逆 规范 化 、 规 范 化 与 
ER 建 模 、 为 流 数 据 库 内 容 增 添 新 表 ) 。 

教学 方法 : 本 章 内 容 基 于 实例 ， 说 明 更 新 操作 、 更 新 异常 及 规范 化 过 程 ， 并 通过 练习 强 
化 所 介绍 的 概念 。 这 一 章 的 目的 是 让 学 生 对 更 新 和 规范 化 概念 有 深入 了 解 ， 并 且 通 过 大 量 练 
习 来 强化 这 些 内 容 。 


第 5 章 SQL 


主要 内 容 : 本 章 全 面 介 绍 了 SQL (结构 化 查询 语言 )， 包 括 SQL 创建 、 更 新 语句 及 关 
系 型 数据 库 查询 ， 以 及 检索 数据 命令 ， 如 SELECT 语句 (伴随 多 条 件 ， 采 用 AND、OR 和 
NOT 操 作 符 )、 聚 集 涌 数 (SUM、COUNT、AVG、MIN、MAX)、GROUP BY、ORDER 


VII 


BY、HAVING 、 艇 套 查询 、UNION 和 INTERSECT 操作 符 、IN、EXISTS、 各 种 连接 、 其 
他 SQL 语句 和 图 数 。 

附加 内 容 : 章 末 探讨 了 有 关 SQL 的 更 深入 的 问题 (SQL 中 观测 值 的 不 合理 使 用 、SQL 
标准 ， 以 及 常见 RDBMS 工具 包 中 的 不 同 SQL 语法 )， 

教学 方法 : 本 章 内 容 基 于 实例 ， 讲 解 如 何 用 SQL 语句 实现 关系 数据 库 的 建立 、 插 入 及 
查询 ， 包 含 用 SQL 命令 实现 上 述 操作 的 具体 实例 。 本 书 的 Web 主页 ( dbtextbook.com) 提 
供 了 六 种 常见 DBMS 包 (Oracle、MySQL 、Microsoft SQL Server、PostgreSQL 、Teradata、 
IBM DB2 )， 其 中 包含 了 本 章 所 有 相关 SQL 语句 的 脚本 。 教 师 可 以 在 本 章 授课 中 直接 利用 
这 些 脚 本 在 RDBMS (根据 教师 选择 ) 中 复制 、 粘 贴 、 执 行 SQL 语句 。 通 过 这 样 的 做 法 ， 教 
师 可 以 向 学 生 介绍 SQL 命令 ， 同 时 还 可 以 展示 数据 库 的 建立 、 插 入 和 查询 。 数 据 集 、 练 习 、 
小 案例 可 以 强化 本 章 内 容 。 此 外 ， 本 书 Web 主页 介绍 了 怎样 获得 免费 的 、 无 访问 限制 的 最 
新 关系 型 DBMS 软件 。 这 一 章 的 目的 是 让 学 生 对 SQL 概念 有 深入 了 解 ， 并 且 通 过 大 量 练习 
来 强化 这 些 内 容 。 


第 6 章 数据库 的 实现 与 使 用 


主要 内 容 : 这 一 章 讲 述 关 于 数据 质量 的 问题 一 一 数据 的 准确 性 、 完 整 性 、 一 致 性 、 唯 一 
性 、 实 时 性 及 统一 性 。 这 些 问题 所 涉及 的 数据 都 存储 在 数据 库 系统 中 。 这 一 章 还 包括 数据 库 
前 端 接 口 (数据 库 形式 、 报 表 、 应 用 )、 参 照 完整 性 选项 (删除 和 更 新 选项 : 级 联 、 限 制 、 设 
置 为 空 、 设 置 为 软 认 值 )、 索 引 ， 以 及 用 户 目 定义 约束 的 实现 。 

附加 内 容 : 章 末 探讨 了 断言 和 触发 硕 。 

教学 方法 : 本 章 在 教学 安排 上 将 介绍 一 些 精简 但 有 意义 的 关于 数据 库 实 现 和 使 用 方面 的 
最 基本 问题 ， 这 些 问题 在 第 5 章 中 并 未 提 及 。 本 章 将 通过 大 量 的 例子 来 讲解 所 提 到 的 概念 ， 
并 且 通 过 大 量 实用 练习 来 强化 这 些 概念 。 


第 7 章 数据 仓库 概念 

主要 内 容 : 本 章 给 出 了 数据 仓库 和 数据 集 市 这 两 个 术语 的 定义 ， 并 且 介 绍 了 数据 仓库 的 
基本 构件 和 基本 概念 (资源 系统 、ETL (提取 、 转 换 、 加 载 )、 集 成 的 分 析 数 据 仓库 、 面 向 主 
题 的 数据 库 、OLAP/BI 前 端 )。 同 时 ， 本 章 还 给 出 了 关于 数据 仓库 开发 步骤 的 概述 。 

教学 方法 : 本 章 采 用 一 些 简短 的 描述 和 简要 的 实例 对 数据 仓库 进行 人 门 级 讲解 ， 并 为 后 
面 两 章 的 内 容 做 好 简明 扼要 的 铺垫 . 


第 8 章 数据 仓库 与 数据 集 市 建 模 


主要 内 容 : 本 章 介 绍 了 维度 建 模 一 一 一 种 用 于 分 析 型 数据 库 的 概念 和 逻辑 数据 设计 技 
术 (如 数据 仓库 和 数据 集 市 )。 本 章 介 绍 的 概念 包括 : 维度 表 和 事实 表 、 星 形 模式 、 雪 花 模 
型 、 星 座 模型 、 缓 慢 变化 维度 。 本章 介 绍 了 用 于 分 析 型 数据 库 建 模 的 ER 建 模 技术 (相对 于 
第 2 章 中 提 到 的 用 于 操作 型 数据 库 的 ER 建 模 技 术 )。 本 章 还 概述 了 不 同 数据 仓库 项 目的 开 
发 方法 : 数据 仓库 总 线 结构 (Kimball 方法 )、 一 致 维度 、 规 范 化 数据 仓库 (Inmon 方法 )， 以 
及 独立 数据 集 市 。 

附加 内 容 : 章 未 将 维度 建 模 和 ER 建 模 这 两 种 数据 仓库 /数据 集 市 设计 方法 进行 了 比较 。 

教学 方法 : 这 一 章 的 教学 通过 实例 说 明基 于 单数 据 源 或 多 数据 源 的 维度 模型 ( 星 形 模 


式 )、 精 细 的 和 聚集 的 事实 表 、 缓 慢 变 化 维度 ， 以 及 其 他 维度 建 模 内 容 。 本 章 还 列举 了 ER 建 
模 或 规范 化 的 数据 仓库 实例 。 练 习 、 小 案例 、 人 免费 软件 (ERDPlus - 星 形 模式 功能 ) 强化 了 
本 章 所 介绍 的 概念 。 这 一 章 的 目的 是 让 学 生 对 数据 仓库 和 数据 集 市 建 模 概念 有 深入 了 解 ， 并 
且 通 过 大 量 实用 练习 来 强化 这 些 内 容 。 


第 9 章 数据 仓库 的 实现 与 使 用 


主要 内 容 : 本 章 给 出 ETL 过 程 的 概述 ， 包 括 用 于 从 操作 型 数据 库 中 提取 有 用 数据 (以 
供 分 析 使 用 ) 的 相关 基础 设施 和 过 程 的 建立 ， 将 这 些 数据 进行 格式 变换 以 适应 目标 数据 仓库 
模型 的 结构 ， 通 过 数据 清理 和 清洗 来 确保 已 变换 数据 的 质量 ， 以 及 将 已 变换 和 具有 质量 保证 
的 数据 加 载 到 目标 数据 仓库 的 方法 。 本 章 定 义 了 “在 线 分 析 处 理 ”( OLAP) 和 “商务 智能 ” 
( BI1) 这 两 个 术语 .它们 通常 与 分 析 型 数据 库 的 前 端 应 用 有 关 。 本 章 还 介绍 了 OLAP/BI 工具 
中 的 常用 功能 。 

附加 内 容 : 章 末 讨论 了 用 于 OLAP/BI 工具 的 不 同 数据 库 及 不 同 的 OLAP/BI 架构 。 

教学 方法 : 本 章 的 教学 基于 实例 说 明 所 介绍 的 概念 。 配 套 的 网 站 (dbtextbook.com) 提 
供 了 如 何 免 费 且 无 限制 地 获取 最 新 OLAP/BI 软件 的 教程 、 数 据 集 、 练 习题 。 本 章 简明 扼要 
地 讲解 了 有 关 数 据 仓库 实现 与 使 用 方面 的 最 基本 问题 。 


第 10 章 DBMS 功能 与 数据 库 管理 概述 


主要 内 容 : 本 章 给 出 了 DBMS 功能 和 组 件 的 全 面 概 述 ， 以 及 数据 库 管理 的 相关 问题 ， 
如 数据 安全 、 和 备份、 恢复、 性 能 及 优化 。 

教学 方法 : 本 章 对 所 介绍 的 内 容 进行 了 快速 概述 ， 让 学 生 粗 略 地 了 解 DBMS 的 功能 和 
数据 库 管 理 的 相关 内 容 。 


附录 

主要 内 容 : 附录 部 分 给 出 附加 的 数据 库 相 关内 容 概 述 ， 包 括 扩 展 的 ER 建 模 (EER)、 更 
高 范式 (高 于 第 三 范式 )、 企 业 资源 计划 ( ERP)、 数 据 管理 与 主 数据 管理 、 面 向 对 象 数据 库 、 
分 布 式 数据 库 、 并 行 数据 库 、 云 计算 、 数 据 挖 据 、XML、NoSQL 数据 库 及 大 数据 。 

教学 方法 : 附录 部 分 以 简短 的 说 明和 实例 来 陈述 内 容 ， 以 此 帮助 学 生 粗 略 地 了 解 一 些 数 
据 库 相 关 的 附加 内 容 。 
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数据 集成 原理 


作者 : AnHai Doan 等 译 者 : 孟 小 峰 等 中 文 版 : 978-7-111-47166-0 定价 : 85.00 元 


数据 集成 的 第 一 部 综合 指南 ， 从 理论 原则 到 实现 细节 ， 
再 到 语义 网 和 云 计算 目前 所 面 怖 的 新 挑战 
这 是 一 本 数据 集成 技术 的 权威 之 作 ， 书 中 的 大 部 分 技术 都 是 作者 提出 来 的 。 本 书 内 容 全 面 ， 很 多 技术 细节 都 介 
绍 得 非常 清楚 ， 是 数据 集成 相关 工作 人 员 的 必 读 书籍 。 
一 一 Philip A. Bernstein， 微 软 杰出 科学 家 
本 书 的 三 位 作者 对 数据 集成 领域 都 有 重要 贡献 ， 既 有 学 术 背 景 ， 又 有 工业 界 的 经 历 。 书 中 包含 很 多 例子 和 相关 
信息 ， 以 便于 读者 理解 理论 知识 。 本 书包 含 了 现代 数据 集成 技术 的 很 多 方面 ， 包 插 不 同 的 集成 方式 、 数 据 和 模式 匹 


配 、 查 询 处 理 和 包装 器 ， 还 包括 Web 以 及 多 种 数据 类 型 和 数据 格式 带 来 的 挑战 。 本 书 非常 适合 作为 研究 生 数 据 集成 
课程 教材 。 
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数据 库 统 域 的 殿堂 级 作品 
夯实 数据 库 理 论 基础 ， 增 强 数据 库 技术 内 功 的 必 备 之 选 
对 深入 理解 数据 库 ， 深 入 研究 数据 库 ， 深 入 操作 数据 库 都 具有 极 强 的 指导 作用 ! 
本 书 是 数据 库 系 统 方面 的 经 典 教材 之 一 ， 其 内 容 由 浅 入 深 ， 既 包含 数据 库 系统 基本 概念 ， 又 反映 数据 库 技术 新 进 


展 。 它 被 国际 上 许多 著名 大 学 所 采用 ， 包 括 斯 坦 福 大 学 、 耶 鲁 大 学 、 得 克 萨 斯 大 学 、 康 奈 尔 大 学 、 伊 利 诺 伊 大 学 等 。 
我 国 也 有 多 所 大 学 采用 本 书 作为 本 科 生 和 研究 生 数 据 库 课 程 的 教材 和 主要 教学 参考 书 ， 收 到 了 良好 的 效果 。 
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| 第 工 章 


Database Systems: Introduction to Databases and Data Warehouses 


引 可 


1.1 基本 术语 


现今 人 们 每 天 都 在 同 数据 库 打 交道 ， 比 如 购物 、 浏 览 网 页 或 者 银行 交易 。 数 据 库 对 于 现 
代 企业 和 机 构 的 正常 运转 至 关 重 要 。 本 书 将 讨论 数据 库 与 数据 库 系 统 的 发 展 和 使 用 中 一 些 最 
根本 的 问题 。 下 面 将 首先 介绍 与 数据 库 相 关 的 基本 术语 。 

数据 ( data) 是 指 已 记录 或 者 可 获取 的 事实 。 除 了 文本 和 数字 ， 数 据 也 可 以 以 其 他 形式 
存在 ， 比 如 图 标 、 图 形 、 图 像 、 声 音 和 视频 等 。 无 论 形式 如 何 ， 数 据 都 是 由 于 能 被 用 户 利用 
才 被 记录 和 保存 起 来 的 。 

信息 ( information) 是 指 用 户 以 某 种 目的 获取 的 数据 。 通 常 来 说 ， 是 从 进行 某 项 活动 所 
需要 的 数据 集合 中 获得 有 用 的 信息 ， 活 动 可 以 是 以 某 种 形式 进行 的 数据 搜索 、 数 据 处 理 、 数 
据 操 纵 等 。 

为 了 阐明 术语 “数据 ”和 “信息 ”"， 让 我 们 来 看 一 个 电话 本 的 实例 。 一 个 电话 本 是 一 组 
收集 到 的 数据 一 一 如 人 个人、 餐馆、 银行 等 的 电话 号 码 。 在 特定 情况 下 ， 这 些 电话 号 但 就 会 成 
为 信息 。 例 如 ， 一 个 拥有 电话 本 的 人 饿 了 ， 决 定 给 离 家 最 近 的 披 陕 店 ( Pizza Adria) 打 电 话 
叫 外 卖 。 此 时 ，Pizza Adria 的 电话 对 他 来 说 就 变 成 了 信息 ， 而 从 电话 本 中 搜寻 Pizza Adria 
店 的 电话 号 码 则 是 从 数据 中 获取 信息 的 必要 步骤 。 

来 看 看 另 一 个 例子 : 我 们 假设 一 个 大 型 零售 店 的 经 理想 要 了 解 当 前 一 个 季度 的 服装 销售 
情况 。 首 先 ， 假设 这 个 零售 店 里 的 每 一 笔 交 易 都 记录 在 计算 机 文件 里 ,经 理 可 以 直接 获取 . 
然而 ， 要 在 如 此 巨大 的 文件 里 获取 有 关 服 装 销售 业绩 的 信息 ， 并 检查 每 个 客户 记录 ， 这 对 于 
经 理 来 说 不 是 一 件 容 易 的 事情 。 因 而 ， 数 据 必 须 按 照 一 定 的 方式 来 处 理 才 能 较 直 观 地 呈现 给 
经 理 。 比 如 ， 当 前 季度 的 服装 销售 数据 可 以 累加 起 来 。 这 个 累加 结果 可 以 跟前 一 季度 的 同 种 
商品 销售 总 量 进行 比较 ， 或 者 跟 去 年 同 季 度 不 同 商品 的 销售 总 量 进行 比较 。 这 些 操 作 都 能 实 
现 从 收集 的 数据 中 获取 信息 。 

“数据 ”和 “信息 ”这 两 个 术语 经 党 被 彼此 和 蔡 换 并 作为 同义词 使 用 ， 这 种 现象 普遍 存在 。 





正如 我 们 前 面 所 说 ， 信 息 是 我 们 需要 的 数据 。 如 果 组 织 和 保存 。 oo0t B 2 tt:o 
数据 的 目的 是 为 了 满足 用 户 的 需要 ， 那 么 这 样 的 数据 就 是 信 0001 F 3 1101 
息 ? 。 本 书 频繁 地 将 “数据 ”和 “信息 ”作为 两 个 可 以 互 换 的 同 o> 02 
义 词 使 用 。 0003 F 2 11:03 


元 数据 ( metadata) 是 描述 数据 结构 和 数据 属性 的 数据 。 元 i 
数据 是 正确 理解 和 使 用 数据 的 关键 。 如 图 1-1 所 示 ， 如 果 不 清楚 。 图 1-1 没有 元 数据 的 数据 


怠 另 一 方面 存在 这 样 的 情形 ， 存 储 的 数据 中 无 用 数据 比例 过 大 ， 导 致 可 以 忽略 有 实际 用 途 的 数据 。 这 也 就 是 人 
们 常 说 的 “数据 量 过 多 而 信息 量 过 少 ”. 


| 


元 数据 ， 就 很 难 理解 图 中 的 内 容 ， 数 字 列 和 数据 文本 也 将 显得 没有 意义 。 

图 1-2 再 次 给 出 图 1-1 中 的 数据 并 附 上 了 元 数据 描述 ， 现 在 图 中 数据 所 表示 的 意义 就 清 
楚 了 。 根据 元 数据 可 知 ， 图 中 的 每 行 代 表 2013 年 9 月 1 日 餐饮 连锁 店 Burger Prince 证 下 
101 号 商店 的 一 条 商品 交易 记录 ， 其 中 ， 第 一 列 为 交易 标识 符 ， 第 二 列 为 交易 中 所 购 商 品 ， 
第 三 列 为 商品 购买 数量 ， 最 后 一 列 则 为 交易 时 间 . 


Burger Prince 旗下 101 号 商店 ， 2013 年 9 月 1 日 销售 数据 
(产品 编号 : B-Burger, F-Fries, S-Soda) 


商品 交易 表 
交易 标识 符 商品 购买 数量 交易 时 间 
0001 B 2 11:01 
0001 F 3 11:01 
0002 S 2 11:02 
0002 B 1 11:02 
F 


0003 11:03 


图 1-2 有 元 数据 的 数据 


数据 库 ( database) 是 指 在 计算 媒介 上 按 结构 存储 的 相关 数据 。 数 据 库 的 目的 是 将 数据 
组 织 起 来 ， 以 便 用 户 直 接 从 数据 中 获得 信息 。 数 据 库 的 结构 由 数据 库 的 元 数据 解释 。 数 据 库 
元 数据 ( database metadata) 第 党 被 定义 成 关于 数据 的 数据 或 者 数据 库 的 内 容 而 不 是 数据 本 
和 刁 。 数 据 库 元 数据 包含 以 下 信息 : 

e 数据 结构 名 称 (如 表 名 、 列 名 )。 

e 数据 类 型 (如 Product- 字符 型 、ItemsSold- 整数 型 ) 。 

e 数据 描述 (如 ItemsSold 代表 商品 销售 数量 ) 。 

e 其 他 描述 数据 库 所 存 数据 特征 的 信息 。 
数据 库 管 理 系统 (DBMS ) 是 用 来 完成 以 下 功能 的 软件 : 

e 数据 库 创 建 。 

e 插入、 存储、 检索 、 更 新 以 及 删除 数据 库 中 的 数据 。 

e 数据 库 维护 - 

打 个 比方 ，DBMS 和 数据 库 之 间 的 关系 就 像 演示 软件 (比如 微软 的 PowerPoint) 和 演示 
之 间 的 关系 。 演 示 软 件 是 用 来 创建 演示 、 插 入 演示 内 容 、 执 行 演示 以 及 改变 或 者 删除 演示 内 
容 的 ， 

相似 地 ，DBMS 是 用 来 创建 数据 库 、 在 数据 库 中 搬入 数据 、 从 数据 库 中 检索 数据 以 及 在 
数据 库 中 修改 数据 的 。 

数据 库 系 统 (database system) 基于 计算 机 系统 ， 其 目的 是 在 用 户 和 数据 库 信息 之 间 保 证 
高 效 的 交互 ， 典 型 框架 如 图 1-3 所 示 。 

数据 库 系统 的 三 个 主要 成 分 是 数据 库 、DBMS 和 前 端 应 用 程序 (front-end application)。 
数据 库 是 数据 库 系 统 的 核心 。 而 数据 库 的 所 有 交互 操作 ， 则 是 通过 DBMS 来 完成 的 。 前 端 
应 用 程序 是 为 用 户 和 DBMS 之 间 更 易于 交互 而 提供 的 一 种 机 制 。 下 面 请 看 一 个 用 户 通过 前 


日 描述 图 1-3 所 示 系 统 结构 的 男 一 个 常用 术语 是 “信息 系统 ”, “信息 系统 ”和 “数据 库 系 统 ” 两 个 术语 通常 有 


相同 的 含义 ,但 使 用 场合 不 同 。 由 于 本 书 的 重点 是 数据 库 ， 因 而 本 书 使 用 “数据 库 系统 ”。 


油 
Hk 
be 
wl. 


端 应 用 程序 与 DBMS 进行 交互 的 例子 。 





图 1-3 ”典型 的 数据 库 系统 框架 


ATM 屏幕 显示 了 用 户 的 操作 界面 ， 如 “从 支票 账户 取款 ”或 “从 储蓄 账户 取 球 ”"， 这 就 
是 一 个 前 端 应 用 程序 的 例子 。 屏 幕 上 的 操作 一 旦 被 选择 ， 就 会 触发 前 端 应 用 程序 与 DBMS 
的 通信 ， 紧 接着 DBMS 与 数据 库 的 通信 也 被 触发 例如， 通过 ATM 屏 右上 的 操作 选择 ， 用 
户 可 以 请 求 从 支票 账户 取款 20 美元 。 此 时 前 端 应 用 程序 将 发 送 几 条 命令 给 DBMS 来 啊 应 用 
户 的 请 求 。 一 条 命令 告诉 DBMS 检查 数据 库 中 用 户 的 支票 账户 是 否 有 足够 资金 供用 户 取 走 。 
如 果 资 金 充 足 ，ATM 将 为 用 户 出 钞 。 同 时 ， 另 一 条 命令 告诉 DBMS 将 用 户 文 票 账户 的 余额 
减少 20 美元 。 

人 们 可 使 用 数据 库 系 统 来 辅助 处 理 与 工作 或 者 生活 相关 的 事务 ， 这 样 的 人 常常 称 为 终端 
用 户 /业务 用 户 (end user/business user) 术语 。 “终端 用 户 ” 将 系统 中 数据 的 实际 使 用 人 员 与 
在 数据 库 实现 和 维护 阶段 进行 测试 的 技术 人 员 区 别 开 来 . 

终端 用 户 与 数据 库 之 间 通 过 前 并 应 用 程序 进行 的 交互 操作 类 型 称 为 间接 交互 (indirect 
interaction ) 。 另 一 种 终端 用 户 与 数据 库 之 间 的 交互 操作 类 型 称 为 直接 交互 (direct 
interaction )， 即 终端 用 户 直 接 与 DBMS 进行 通信 。 图 1-4 展示 了 直接 交互 与 间接 交互 。 





图 1-4 终端 用 户 与 数据 库 系统 之 间 的 直接 交互 和 间接 交互 


间接 交互 操作 仅 需 要 终端 用 户 拥有 很 少 、 甚 至 毫 无 数据 库 相 关 技 能 ， 而 进行 直接 交互 操 
作 的 终端 用 户 则 需要 先 接 受 数据 库 相 关 的 知识 训练 ， 并 达到 一 定 的 实际 操作 水 平和 知识 层 
次 。 直 接 交互 操作 要 求 终端 用 户 懂 得 如 何 使 用 特定 的 DBMS 命令 ， 这 就 要 求 终 端 用 户 会 使 
用 DBMS 语言 。 

数据 库 和 DBMS 是 数据 库 系统 不 可 缺少 的 组 成 成 分 。 比 如 ， 在 人 们 有 权限 获取 数据 库 


[| 


1.2 数据库 系 统 开发 步骤 


中 的 数据 ， 且 有 能 力 、 有 了 时间 进 行 直 接 交 互 操作 的 情况 下 ， 前 端 应 用 程序 将 失去 必要 性 。 此 
作 中 的 数据 库 系统 往往 拥有 前 端 应 用 程序 ， 而 终端 用 户 与 数据 库 之 间 的 交互 大 多 也 是 通过 前 
端 应 用 程序 来 实现 间接 交互 操作 。 


时 ， 没 有 前 端 应 用 程序 ， 数 据 库 系统 仍然 可 以 使 用 。 然 而 ， 在 大 多 数 情况 下 ， 日 常生 活 和 工 


一 旦 数据 库 项 目 启动 ， 那 么 
图 1-5 所 示 。 







计划 、 预 算 等 前 期 开发 活动 就 已 经 开始 实施 。 这 些 活动 
在 数据 库 系统 的 实际 开发 过 程 之 前 进行 。 下 面 将 给 出 开发 数据 库 系统 的 实际 活动 流程 ， 如 
数据 库 建 模 

| (逻辑 建 模 ) 









数据 库 使 用 

(直接 和 

间接 使 用 ) 
开发 前 端 应 用 
程序 

(用 于 间接 访问 ) 
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1 






数据 库 管 理 和 
维护 


图 1-5 数据 库 系统 开发 步骤 
接 下 来 ,我 们 将 对 图 1-5 中 的 每 一 个 步骤 做 出 简要 的 介绍 和 讨论 。 
数据 库 需 求 收 集 、 定 义 和 可 视 化 


数据 库 系 统 开发 中 ， 第 一 步 也 是 最 为 关键 的 步 又， 就 是 数据 库 需 求 收 集 、 定 义 和 可 视 化 


(requirements collection ,definition, visualization ) 。 如 果 这 个 步骤 是 成 功 的 ， 接 下 来 的 步骤 在 
很 大 程度 上 也 会 成 功 。 而 一 旦 该 步骤 产生 了 错误 ， 剩 下 的 所 有 步骤 乃 至 整个 项 目 都 将 功 亏 一 
筑 。 图 1-5 和 图 1-6 对 该 步骤 进行 了 突出 显示 以 强调 其 重要 性 。 


天 







站 一 一 一 一 一 人 一 一 


数据 库 建 模 
开发 前 端 应 用 村 


程序 





数据 库 使 用 
(直接 和 













间接 使 用 ) 
(用 于 间接 访问 ) 

图 1-6 数据 库 需 求 收集 、 定 义 和 可 视 化 过 程 迭代 的 特点 

此 步骤 得 到 终端 用 户 的 具体 需求 ， 包 括 数 据 库 系统 将 要 保存 的 数据 类 型 、 保 存 方式 、 数 


据 库 系统 的 容量 与 功能 。 这 些 需求 将 用 于 数据 库 建 模 、 实 现 以 及 为 数据 库 创 建 前 端 应 用 程序 


的 过 程 中 。 

收集 好 的 需求 应 该 在 文档 里 进行 清晰 的 定义 和 表述 ， 然 后 利用 概念 数据 建 模 技术 将 其 可 
视 化 成 概念 数据 库 模 型 ( conceptual data base model)， 即 实体 - 联系 ( ER) 建 模 ” . “概念 数 
据 建 模 ” 是 需求 可 视 化 的 男 一 个 术语 。 

数据 库 需 求 阶段 的 步骤 和 方法 应 该 是 个 循环 迭代 的 过 程 。 刚 开始 收集 、 定 义 及 可 视 化 得 
到 一 个 比较 小 的 需求 集合 ， 进 而 数据 库 开 发 人 员 与 系统 的 光 在 终端 用 户 针 对 这 个 集合 进行 讨 
论 - 这 些 讨 论 可 以 形成 另 一 个 需求 的 收集 、 定 义 及 可 视 化 的 循环 过 程 ， 进 而 逐渐 扩大 最 初 的 
需求 集合 。 

如 图 1-6 所 示 ，' 即 使 需求 集合 在 数据 库 需 求 的 收集 、 定 义 和 可 视 化 步骤 之 中 已 经 确定 ， 
它 依然 可 能 被 数据 库 开 发 过 程 中 的 其 他 步骤 改变 。 

将 收集 、 定 义 以 及 可 视 化 数据 库 中 所 有 的 需求 作为 一 个 独立 步骤 ， 然 后 再 去 完成 数据 库 
系统 开发 过 程 中 的 其 他 所 有 步骤 .这 种 方法 是 不 可 取 的 。 篆 见 的 做 法 是 允许 在 其 后 数据 库 系 
统 开 发 过 程 的 每 个 步骤 中 完善 和 添加 需求 。 如 图 1-6 中 的 虚线 所 示 。 

例如 ， 数 据 库 工程 中 一 个 通常 的 经 验 做 法 是 将 收集 、 定 义 以 及 可 视 化 作为 起 始 需 求 的 一 
部 分 ， 基 于 这 些 需求 创建 和 实现 数据 库 模 型 的 初期 部 分 。 随 后 是 一 系列 类 似 的 迭代 过 程 ( 如 
图 1-6 中 字母 x 标记 的 部 分 )， 添 加 额外 需求 (收集 、 定 义 和 可 视 化 ) 并 用 其 进行 数据 库 模型 
的 扩展 。 

其 他 步骤 同样 可 以 通过 迭代 完善 需求 集合 ， 比 如 在 创建 前 端 应 用 程序 或 者 使 用 数据 库 的 
实际 过 程 中 ， 可 以 根据 需要 修改 、 增 加 或 减少 初始 的 需求 集合 。 

每 次 初始 的 需求 集合 被 改变 ， 概 念 模型 就 要 做 相应 的 改变 ， 需 求 的 改变 会 一 直 扩展 到 全 
部 后 续 步 又 中 : 数据 库 的 建 模 与 创建 、 前 端 应 用 程序 的 创建 ， 数 据 库 的 开发 、 人 使用、 管理 和 
维护 。 

数据 库 中 任何 开发 步骤 都 不 允许 隐 式 地 改变 需求 。 即 在 数据 库 实现 过 程 中 (图 1-6 的 中 
加 部 分 )， 不 允许 开发 人 员 临 时 创建 新 的 不 被 需求 包含 的 数据 库 构件 (例如 ， 数 据 库 的 表 或 
表 中 的 列 )。 如 果 在 数据 库 实现 过 程 中 发 现 需 要 一 个 有 用 的 新 构件 时 ， 正 确 的 做 法 是 (图 1-6 
中 字母 y 标识 的 部 分 ) 返回 到 需求 部 分 ， 同 时 扩展 需求 文档 和 概念 模型 ， 将 新 构件 添加 到 需 
求 中 。 该 新 需求 还 应 该 进一步 在 扩展 后 的 数据 库 模型 中 得 到 反映 。 这 样 一 个 新 的 数据 库 构件 
才能 被 添加 。 

数据 库 需 求 的 可 视 化 被 公认 为 是 数据 库 系统 开发 过 程 中 最 关键 的 一 步 。 这 一 步骤 的 好 坏 
将 决定 整个 数据 库 项 目的 成 败 。 如 果 这 一 步骤 有 误 ， 需求 将 会 偏离 目标 ， 数 据 库 的 最 终结 果 
也 就 不 能 满足 终端 用 户 的 需求 。 


1.2.2 数据库 建 模 

在 收集 、 定 义 和 可 视 化 需求 之 后 的 第 一 个 步骤 是 数据 库 建 模 / 逻辑 数据 库 建 模 (database 
modeling /logical database modeling )。 在 本 书 中 ， 我们 使 用 术语 “数据 库 建 模 ” 来 指 代 可 由 
DBMS 软件 执行 的 数据 库 模 型 创建 过 程 。 数 据 库 模型 也 指 常 说 的 逻辑 数据 库 模 型 / 实施 型 数 
据 库 模型 ( logical database model /implementational database model)， 而 不 是 概念 数据 库 模 
型 。 概 念 数据 库 模 型 仅仅 是 需求 的 可 视 化 ， 并 且 与 特定 的 DBMS 无 关 。 因 此 ， 一 个 数据 库 


昌 实体 -联系 (ER) 建 模 在 下 一 章 中 讲解 。 
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有 两 个 模型 : 一 个 是 在 需求 收集 、 定 义 和 可 视 化 步骤 中 为 需求 可 视 化 创建 的 概念 数据 模型 ; 
另 一 个 是 实施 数据 库 模 型 ， 也 称 逻 辑 模型 ， 它 在 数据 库 建 模 步骤 中 创建 ， 以 便 在 利用 DBMS 
进行 数据 库 实 施 的 后 续 步 又 中 使 用 。 概 念 数据 模型 是 实施 (逻辑 ) 数据 库 模 型 的 蓝本 。 

大 多 数 的 现代 数据 库 中 ， 数 据 库 建 模 (如 逻辑 数据 建 模 ) 涉及 所 谓 的 关系 数据 库 模 型 的 
创建 = 。ER 模型 使 用 概念 模型 技术 将 需求 可 视 化 ， 而 关系 数据 库 建 模 则 是 将 ER 模型 直接 映 
射 到 关系 模型 的 过 程 . 


1.2.3 数据库 实现 


数据 库 模型 创建 完成 后 ， 接 下 来 的 步骤 便 是 数据 库 实现 ( database implementation ) 。 这 
个 步骤 包括 使 用 DBMS 在 初始 为 空 的 数据 库 中 实现 数据 库 模型 。 数 据 库 实现 是 数据 库 开 发 
人 员 使 用 DBMS 创建 数据 库 模型 以 实现 实际 功能 的 简单 过 程 ， 这 一 过 程 与 使 用 构建 工具 为 
一 个 实际 的 工程 创建 蓝本 大 致 相同 。 如 前 所 述 ， 大 多 数 现 代数 据 库 都 是 基于 关系 数据 库 建 模 
的 。 正 因 如 此 ， 它 们 都 是 由 关系 DBMS 软件 来 实现 的 。SQLS (Structured Query Language， 
结构 化 查询 语言 ) 是 大 多 数 关 系 DBMS 软件 包 所 使 用 的 语言 。SQL 包括 创建 、 修 改 和 删除 
等 命令 ， 这 些 命令 将 在 数据 库 实现 过 程 中 使 用 。 


1.2.4 ”开发 前 端 应 用 程序 


开发 前 端 应 用 程序 ( developing front-end application) 是 指 通 过 设计 、 创 建 应 用 程序 以 
方便 终端 用 户 间 接 使 用 数据 库 的 过 程 。 大 多 数 数据 库 系 统 都 包含 这 样 的 应 用 程序 。 前 端 应 用 
程序 不 仅 基 于 数据 库 模型 ， 还 要 基于 需求 中 明确 提出 的 用 户 所 需要 的 前 端 应 用 。 前 端 应 用 程 
序 通常 包含 窗 体 和 报表 等 形式 的 接口 ， 可 以 方便 地 通过 导航 机 制 (如 菜单 ) 找到 。 图 1-5 说 
明 前 端 应 用 程序 的 设计 和 创建 可 以 与 数据 库 实现 同时 进行 。 例 如 ， 前 端 应 用 程序 的 外 观 和 风 
格 、 特 定 组 件 (比如 窗 体 和 报表 ) 的 数量 ， 及 其 各 自 的 功能 都 可 以 在 数据 库 实现 之 前 或 数据 
库 实现 之 中 被 确定 。 当 然 ， 前 端 应 用 程序 的 实际 创建 也 将 涉及 到 与 数据 库 之 间 的 连接 ， 这 一 
连接 的 最 终 实 施 则 只 能 在 数据 库 实现 完成 以 后 进行 。 


1.2.5 数据库 部 署 


当 数 据 库 及 其 关联 的 前 端 应 用 程序 实施 完成 后 ， 接 下 来 的 步骤 便 是 数据 库 部 置 
( database deployment)。 这 一 步骤 涉及 数据 库 系 统 的 发 布 ， 即 数据 库 及 其 前 端 应 用 程序 供 终 
端 用 户 的 使 用 。 通 常 来 说 ， 这 一 步 也 包括 将 初始 的 数据 填 人 部 署 好 的 数据 库 中 。 


1.2.6 ”数据 库 使 用 


一 旦 数据 库 系统 部 署 完成 ,终端 用 户 便 可 以 进行 数据 库 使 用 ( database use)。 数 据 库 使 
用 涉及 对 数据 库 系 统 中 数据 的 插入 、 修 改 、 删 除 以 及 查询 ( insertion, modification, deletion, 
and retrieval) 。 用 户 可 以 通过 前 端 应 用 程序 间接 使 用 数据 库 ， 也 可 以 通过 DBMS 直接 使 用 
数据 库 。 正 如 我 们 所 提 到 的 那样 ，SQL 是 大 多 现代 关系 数据 库 包 所 使 用 的 语言 。SQL 中 包 
含 了 插入 、 修 改 、 删 除 以 及 查询 数据 的 命令 。 前 端 应 用 程序 可 以 使 用 这 些 命令 (间接 操作 )， 
或 者 终端 用 户 也 可 以 直接 使 用 这 些 命令 (直接 操作 )。 z 


昌 关系 数据 模型 在 第 3、4 章 给 出 。 
中 SQL 有 时 也 指 “Sequel”。SQL 在 第 5 章 讲 解 。 


1.2.7 数据 库 管理 和 维护 

数据 库 管理 和 维护 ( database administration and maintenance) 活动 用 来 支持 终端 用 户 对 
数据 库 的 使 用 。 数 据 库 管理 和 维护 活动 包括 处理 某 些 技术 问题 ， 比 如 为 数据 库 中 的 信息 提供 
安全 支持 、 确 保 足 够 的 硬盘 空间 来 存储 数据 库 的 内 容 、 实 现 数据 备份 和 恢复 等 过 程 . 
1.3 ”数据库 新 版 本 

在 大 多 数 情况 下 ， 经 过 一 段 时 间 的 使 用 后 ， 修 改 和 扩展 已 经 存在 的 数据 库 系 统 就 变 得 很 










有 必要 ， 这 便 需 要 对 已 有 的 数据 库 系统 开发 新 的 版 本 。 数 据 库 的 新 版 本 应 该 按照 原版 本 的 开 
发 步 又 来 执行 。 如 图 1-7 所 示 。 
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区 1-7 数据库 新 版 本 的 开发 


与 数据 库 系 统 的 初 冶 版 本 相同 ， 后 续 版 本 的 开发 也 要 从 需求 的 收集 、 定 义 和 可 视 化 步骤 
升 始 。 但 与 初始 版 本 不 同 的 是 ， 在 后 续 和 版 本 中 ,不 是 所 有 的 需求 都 要 从 头 开 始 收集 。 初 期 的 
需求 提供 了 增加 和 修改 的 插入 点 。 大 多 数 的 增加 和 修改 来 自 于 终端 用 户 在 使 用 前 一 版 本 时 的 
观察 和 反馈 ， 指 示 了 数据 库 系 统 可 以 被 改善 和 扩展 的 方向 。 另 一 个 新 的 需求 则 来 自由 数据 库 
系统 支撑 的 市 场 需求 的 改变 ,或 者 是 底层 技术 的 改变 。 不 论 是 什么 样 的 原因 ， 改 变 是 数据 库 
系统 固有 的 特点 ， 应 该 周期 性 地 推出 新 版 本 并 做 出 相应 的 处 理 。 


1.4 ”数据 库 使 用 范围 


数据 库 有 不 同 的 使 用 范围 ， 从 供 少 量 单独 用 户 (个 人 ) 使 用 的 数据 库 到 供 数 以 千 计 的 终 
端 用 户 使 用 的 大 型 企业 数据 库 。 但 无 论 使 用 范围 如 何 ， 所 有 的 数据 库 都 有 相同 的 基本 开发 步 
台 ， 即 需求 收集 、 建 模 、 实 现 、 部 轩 和 使 用 。 不 同 的 数据 库 使 用 范围 反映 在 数据 库 的 大 小 、 
复杂 性 、 耗 时 以 及 每 个 步骤 所 需要 的 资源 上 。 


1.5 参与 数据 库 系统 的 人 员 


创建 和 使 用 数据 库 系 统 涉及 不 同 角 色 的 人 员 。 有 关 数 据 库 创建 、 维 护 和 使 用 的 人 员 ， 可 
以 根据 不 同 项 目 和 不 同 公司 来 设 定 相 应 的 角色 和 头衔 。 人 员 和 角色 的 分 类 方法 有 很 多 种 。 这 
里 ,我 们 将 数据 库 项 目 和 系统 参与 人 员 划 分 为 以 下 四 类 : 

e 数据 库 分 析 者 、 设 计 者 和 开发 者 。 

® 前 端 应 用 程序 分 析 者 和 开发 者 。 

e 数据 库 管理 员 . 





e 数据 库 终端 用 三 。 
这 些 分 类 与 不 同人 员 参 与 的 数据 库 生命 周期 相关 ， 同 时 也 与 分 类 本 身 的 职能 相关 。 


1.5.1 数据 库 分 析 者 、 设 计 者 和 开发 者 


数据 库 分 析 者 ( database analyst) 参与 需求 的 收集 、 定 义 和 可 视 化 阶段 。 数 据 库 设计 者 / 
数据 库 建 模 者 或 构建 者 (database designer/dataset modeler or architect) 参与 数据 库 建 模 阶段 。 
WA ( database developer) 负责 使 用 DBMS 软件 完成 数据 库 模型 中 的 数据 库 使 用 功 

,同时 扮演 不 同 的 角色 ° 是 常 有 的 情况 。 这 些 角 色 负 责 将 市 场 需求 转换 到 数据 库 系统 中 核 
心 的 二 的 内 络 移 |: 理想 的 人 员 要 求 是 精通 技术 和 市 场 ， 或 者 能 明确 地 掌握 数据 库 建 模 方法 以 
及 市 场 组 织 过 程 和 原则 。 


1.5.2 ”前 端 应 用 程序 分 析 者 和 开发 者 


前 端 应 用 程序 分 析 者 ( front-end applications analyst) 负责 为 前 端 应 用 程序 收集 和 定义 需 
求 ， 前 端 应 用 程序 开发 者 (front-end applications developer) 负责 创建 前 端 应 用 程序 。 前 端 应 
用 程序 分 析 者 需要 确定 对 于 间接 使 用 数据 库 的 终端 用 户 来 说 ， 怎 样 的 前 端 程序 才 最 有 用 且 最 
适合 。 这 个 角色 同时 还 需要 决定 每 个 前 端 应 用 程序 的 特征 、 外 观 和 风格 。 前 端 应 用 程序 开发 
lu 是 基于 前 端 应 用 程序 分 析 者 定义 的 需求 来 创建 前 端 应 用 程序 。 前 闻 应 用 程序 开发 者 
需要 一 定 的 编程 知识 ， 


1.5.3 ”数据 库 管理 员 


一 旦 数据 库 及 其 相关 的 前 端 应 用 程序 被 设计 、 实 现 并 开发 为 可 运行 的 数据 库 系 统 ， 就 必 
然 要 面临 管理 问题 。 数 据 库 管理 人 员 围 绕 数 据 库 系 统 展开 维护 、 管 理 的 相关 工作 。 数 据 库 管 
理 员 ( database administrator，DBA) 的 工作 涉及 与 安全 相关 的 技术 问题 (如 创建 、 分 配 用 户 
名 和 密码 ， 数 据 库 的 权限 管理 等 )、 数 据 库 系统 的 备份 和 恢复 、 监 督 空间 使 用 和 根据 需要 增 
加 内 存 空间 ， 以 及 其 他 数据 库 系 统 相 关 技 术 。 数 据 库 管 理 员 应 该 拥有 处 理 这 些 问题 的 技能 ， 
并 掌握 数据 库 设 计 的 细节 技术 。 


1.5.4 数据 库 终端 用 户 


显然 ， 数 据 库 终端 用 户 〈database end user) 在 数据 库 系统 的 人 员 分 类 中 是 最 重要 的 一 
类 ， 他 们 是 数据 库 系 统 存在 的 原因 。 数 据 库 系统 的 质量 取决 于 能 在 多 大 程度 上 更 快 、 更 容易 
地 支持 终端 用 户 获 取 准 确 的 、 完 整 的 信息 。 终 端 用 户 在 技术 复杂 程度 方面 ， 需 要 的 数据 量 、 
使 用 数据 库 系 统 的 频率 以 及 其 他 度量 方面 都 存 有 差异 。 正 如 前 面 我 们 提 到 的 那样 ， 大 多 数 终 
端 用 户 通 过 前 端 应 用 程序 以 间接 方式 来 使 用 数据 库 。 某 些 终端 用 户 非常 熟悉 DBMS 的 工作 
机 制 并 且 有 权限 访问 DBMS， 这 些 用 户 则 可 以 通过 直接 方式 使 用 数据 库 系 统 。 

我 们 在 这 里 介绍 了 组 织 或 公司 中 直接 参与 数据 库 系统 的 人 员 的 四 大 类 和 角色。 除了 这 四 种 
类 型 ， 还 有 一 些 角 色 ， 如 DBMS 软件 开发 人 员 以 及 负责 数据 库 系统 所 依附 的 计算 机 系统 的 
管理 员 等 ， 他 们 都 是 数据 库 系 统 运行 过 程 中 需要 的 。 


昌 实际 上 (特别 是 在 小 公司 和 小 组 织 中 )， 人 们 同时 负责 数据 库 系 统 的 所 有 部 分 ， 包括 设 计 、 实 施 、 管 理 和 
维护 。 


1.6 ”操作 型 数据 库 与 分 析 型 数据 库 


数据 库 系统 中 收集 的 信息 概括 起 来 有 两 个 使 用 目的 : 操作 目的 和 分 析 目 的 。 

术语 操作 信息 /事务 信息 ( operational information/transactional information ) 是 指 支 撑 市 
场 和 其 他 组 织 日 常 操作 需要 所 收集 和 使 用 的 信息 。 每 条 信息 都 来 自 具 体 的 事务 ， 如 从 ATM 
中 取款 或 购买 机 票 等 都 是 操作 信息 。 这 也 说 明了 为 什么 操作 信息 也 称 为 “事务 信息 ”。 

操作 型 数据 库 ( operational database) 收集 并 星 现 日 常 处 理 中 的 操作 信息 ， 比 如 在 ATM 
取款 操作 中 扣除 用 户 支 票 中 的 余额 或 者 为 顾客 处 理 购买 机 票 的 账单 等 。 

术语 分 析 信 息 ( analytical information) 是 指 为 支持 分 析 任 务 而 收集 和 使 用 的 信息 。ATM 
的 使 用 方式 就 是 一 个 具体 的 分 析 信 息 的 实例 。 比 如 ， 分析 一 天 中 的 哪个 时 间 段 内 发 生 了 最 
多 的 取款 操作 ， 或 者 一 天 中 的 哪个 时 间 段 内 发 生 了 最 少 的 取款 操作 。 这 些 信息 可 以 用 于 为 
ATM 设置 放 钞 计划 表 -， 另 一 个 分 析 信 息 的 例子 是 显示 航空 公司 机 票 的 销售 趋 热 ， 比 如 ， 美 
国 的 哪 条 航线 销售 量 最 多 以 及 哪 条 航线 销售 量 最少 。 这 些 信 息 有 助 于 制定 航班 计划 。 

从 上 面 的 介绍 中 不 难 发 现 ， 分 析 信 息 需 要 在 操作 信息 的 基础 之 上 和 得到。 例如， 为 了 创建 
展示 ATM 一 天 中 不 同时 间 段 使 用 情况 的 分 析 信 息 ， 必 须 先 合并 大 量 单个 ATM 取款 操作 的 
事务 信息 实例 。 同 样 ， 为 了 创建 显示 不 同 航线 的 销售 趋势 的 分 析 信 息 ， 必 须 先 合并 大 量 单个 
购买 机 票 的 事务 信息 实例 . 

过 去 ， 大 多 数组 织 或 公司 都 仅仅 维护 和 使 用 一 些 操作 型 数据 库 。 而 现在 ， 创 建 和 使 用 分 
析 型 数据 库 ( analytical database) 的 公司 数量 不 断 增加 。 为 反映 该 事实 ， 本 书 内 容 涵 盖 了 关 
于 操作 型 和 分 析 型 数据 库 的 一 些 内 容 。 关 于 开发 和 使 用 操作 型 数据 库 的 内 容 在 第 2 一 6 章 给 
出 ， 关 于 分 析 型 数据 库 的 开发 和 使 用 在 第 7 一 9 章 给 出 。 


1.7 ”关系 数据 库 管理 系统 


关系 数据 库 模 型 是 DBMS 软件 组 成 部 分 的 基础 。DBMS 软件 包 用 于 实现 目前 大 多 数 
的 操作 型 和 分 析 型 数据 库 。 关 系 DBMS 软件 包括 Oracle、MySQL、Microsoft SQL Server、 
PostgreSQL 、IBM DB2 以 及 Teradata。 在 这 些 DBMS 工具 中 ，Teradata 适用 于 大 型 分 析 型 
数据 库 ， 其 他 的 DBMS 可 同时 用 于 操作 型 数据 库 和 分 析 型 数据 库 。 在 第 10 章 ， 我 们 将 介绍 
一 些 DBMS 包 的 基本 功能 ,并 展示 这 些 功能 如 何 用 于 管理 和 维护 操作 型 数据 库 和 分 析 型 数 
据 库 。 


1.8 ”本 书 内 容 安排 


本 书 着 重 介绍 与 设计 、 开 发 、 使 用 操作 型 和 分 析 型 数据 库 相 关 的 最 基本 的 内 容 。 内 容 组 
织 如 下 : 

第 1 章 介绍 基本 术语 ， 列 出 并 向 要 概述 了 数据 库 系统 开发 的 步骤 ， 概 括 数 据 库 范围 ， 确 
定 参 与 数据 库 系 统 的 人 员 和 角色 分 配 ， 明 确 操 作 型 数据 库 和 分 析 型 数据 库 的 定义 。 

第 2 章 包 括 操 作 型 数据 库 的 需求 收集 和 可 视 化 、ER 模型 、 概 念 数据 模型 。 

第 3 章 介绍 操作 型 数据 库 建 模 ， 包 括 关系 建 模 和 罗 辑 数据 建 模 。 

第 4 章 进一步 深入 讲解 操作 型 数据 库 建 模 并 讨论 与 关系 数据 库 模 型 相关 的 其 他 内 容 。 

第 5 章 详细 介绍 SQL 相关 内 容 ， 以 及 如 何 用 其 创建 和 使 用 关系 数据 库 。 

第 6 章 主 要 介绍 操作 型 数据 库 系 统 的 实现 和 使 用 。 
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第 7 章 介 绍 分 析 型 数据 库 相 关 的 基本 术语 和 概念 ， 比 如 众所周知 的 数据 仓库 和 数据 集 市 。 
第 8 章 进一步 介绍 分 析 型 数据 库 ， 包 括 数据 仓库 和 数据 集 市 的 建 模 技术 。 

第 9 章 介 绍 数据 仓库 / 数据 集 市 的 实现 和 使 用 。 

第 10 章 介 绍 操作 型 数据 库 和 分 析 型 数据 库 中 常用 的 DBMS 功能 。 

附录 包括 其 他 类 型 数据 库 的 介绍 ， 并 简单 介绍 数据 库 相 关 的 其 他 主题 。 


关键 术语 ° 

analytical database (分 析 型 数据 库 )，10 

analytical information (分 析 型 信息 )，10 

conceptual database model (概念 数据 库 模型 )，5 

data (数据 )，1 

database (数据 库 )，2 

database administration and maintenance (数据 库 
管理 与 维护 )，7 

database administrator (DBA ， 数 据 库 管理 员 )，9 

database analyst (数据 库 分 析 员 )，8 

data deployment (数据 库 部 署 )，7 

database designer/dataset modeler or architect ( 数 
据 库 设计 者 /数据库 建 模 者 或 构建 者 )，8 

database developer (数据 库 开 发 者 )，9 

database Implementation (数据 库 实现 )，6 

database management System ( DBMS ， 数 据 库 管 
理 系 统 )，2 

database metadata ( 数据库 元 数据 )，2 

database modeling/logical database modeling ( 数 
据 库 建 模 / 逻辑 数据 库 建 模 )，6 

database system (数据 库 系统 )，3 

database use (数据 库 使 用 )，7 

developing front-end application (前 端 应 用 程序 


复习 题 


Q1.1 给 出 几 个 数据 的 实例 。 
Q1.2 给 出 几 个 数据 向 信息 转化 的 实例 。 


开发 )，7 

direct interaction (直接 交互 )，3 

end users/business user (终端 用 户 / 业务 用 户 )，3 

front-end application (前 端 应 用 程序 )，3 

front-end applications analyst (前 端 应 用 程序 分 
析 者 )，9 

front-end applications developer (前 端 应 用 程序 
开发 者 )，9 

indirect interaction (间接 交互 )，3 

information (信息 )，] 

insertion ,modification, deletion ,and retrieval ( 插 
入、 修改 、 删 除 以 及 查询 )，7 

logical database model/implementational database 
model (逻辑 数据 库 模 型 /实施 型 数据 库 模 
型 )，6 

metadata (元 数据 )，2 

operational database (操作 型 数据 库 )，10 

operational information/transactional information 
(操作 型 信息 /事务 信息 )，10 

requirements collection, defimition, and visualization 


(需求 收集 、 定 义 以 及 可 视 化 )，5 


Q1.3 给 出 你 目 己 的 展示 数据 收集 的 实例 ， 先 给 出 一 个 没有 元 数据 的 ， 再 给 出 有 元 数据 的 。 


Q1.4 ”描述 数据 库 和 DBMS 的 关系 。 
Q1.5 数据 库 系统 的 主要 组 成 部 分 是 什么 ? 
Q1.6 给 出 一 个 间接 使 用 数据 库 的 例子 。 
Q1.7 数据 库 系统 的 开发 步骤 是 什么 ? 


Q1.8 ”解释 数据 库 需 求 收集 、 定 义 以 及 可 视 化 过 程 中 的 迭代 性 质 。 


Q1.9 ”概念 数据 建 模 的 目标 是 什么 ? 


昌 本 书 各 章 的 “关键 术语 ”中 ,页 码 为 英文 原 书页 码 ， 与 书 中 页 边 标 注 的 页 码 一 致 。 


逻辑 数据 库 建 模 的 目标 是 什么 ? 

简要 描述 数据 库 实现 的 过 程 。 

简要 措 述 前 端 应 用 程序 开发 的 过 程 。 

数据 库 开发 阶段 会 发 生 什 么 ? 

构成 数据 库 使 用 的 四 种 操作 是 什么 ? 

给 出 数据 库 管理 和 维护 活动 的 例子 。 

数据 库 原始 版 本 和 后 续 版 本 的 开发 有 哪些 相似 的 地 方 和 不 同 的 地 方 ? 
数据 库 范 围 是 怎样 反映 在 数据 库 系 统 的 开发 中 的 ? 
参与 数据 库 项 目的 人 员 有 哪 四 大 类 ? 

数据 库 分 析 者 的 职责 是 什么 ? 

数据 库 设计 者 的 职责 是 什么 ? 

数据 库 开 发 者 的 职责 是 什么 ? 

前 端 应 用 程序 分 析 者 的 职责 是 什么 ? 

前 端 应 用 程序 开发 者 的 职责 是 什么 ? 

“数据 库 系 统 的 质量 ”与 终端 用 户 是 如 何 关联 起 来 的 ? 
给 出 操作 (事务 ) 信息 的 例子 。 

给 出 分 析 信 息 的 例子 。 

列 出 关系 DBMS 软件 工具 . 


wl 
wa 
人 一 


第 一 部 分 


Databaae Systems: Introduction to Databases and Data Warehouses 


操作 型 数据 库 
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Database Systems: [ntroduction to Databases and Data Warehouses 


数据 库 需 求 与 ER 建 模 


2.1 引言 


确定 数据 库 需 求 ( database requirement) 并 创建 能 将 这 些 需 求 可 视 化 的 概念 数据 库 模 型 ， 
是 开发 数据 库 过 程 的 第 一 步 ， 也 是 最 关键 的 步骤 。 

数据 库 需 求 是 一 系列 表述 ， 这 些 表 述 指明 了 该 数据 库 数据 及 元 数据 的 细节 和 约束 。 数 据 
库 需 求 可 从 业务 人 员 、 业 务 文 件 、 业 务 政策 或 者 从 这 三 者 与 其 他 资源 的 结合 中 得 到 。 

正确 收集 的 需求 应 该 确切 地 描述 数据 库 将 记录 哪些 信息 ， 以 及 以 什么 方式 记录 这 些 信 
电 。 实 体 -联系 建 模 (entity-relationship (ER) modeling) 是 一 种 广泛 使 用 的 概念 数据 库 建 模 
方法 ， 这 种 方法 可 以 对 收集 到 的 需求 进行 构建 和 组 织 ， 同 时 以 图 形 的 方式 将 需求 展示 出 来 。 

在 本 曹 中， 我 们 将 介绍 如 何 适 当地 收集 数据 库 需 求 ， 并 使 用 ER 建 模 技术 将 其 形象 地 表 
示 出 来 。 


2.2 ER 建 模 基本 构件 


ER 建 模 后 得 到 的 ER 图 (ER diagram，ERD) 是 整个 数据 库 的 蓝图 。 实 体 (entity) 和 联 
系 (relationship) 是 ER 图 的 两 个 基本 构件 。 目 前 还 没有 一 个 所 有 数据 库 都 遵循 的 通用 ER 符 
与 体系 。 相 反 ， 当 前 采用 的 ER 符号 体系 种 类 繁多 。 虽 然 采 用 来 自 不 同 符号 体系 的 ER 符号 
来 表示 实体 和 联系 时 差异 巨大 ， 但 其 含义 通常 是 相同 的 。 本 书 将 采用 陈 氏 ER 符号 体系 的 修 
改版 本 来 表示 所 有 构件 ， 主 要 原因 如 下 : 

e 教学 价值 : 易于 初学 者 学 习 和 使 用 。 

e 完整 性 : 所 有 基本 ER 概念 都 有 相应 的 表示 。 

e 清楚 可 辨别 :所 有 概念 都 有 图 形 化 的 表示 ， 概 念 间 可 辨别 性 强 。 

e 与 软件 兼容 : 本 书 提供 的 数据 库 建 模 软 件 ERDPlus (ersplus.com 可 下 载 ) 也 采用 了 该 

符号 体系 。 

一 旦 擎 握 了 一 种 ER 符号 体系 ， 开 发 者 就 可 以 快速 、 直 接地 适应 任意 其 他 符号 。 本 章 的 末尾 
将 给 出 几 种 其 他 符号 体系 的 描述 ， 同 时 也 将 说 明 : 熟悉 某 种 ER 符号 的 开发 者 可 以 非常 轻易 、 
日 然 地 理解 和 使 用 其 他 ER 符号 系统 。 


2.3 ”实体 
实体 是 ER 图 的 基本 组 件 ， 用 于 描述 数据 库 所 记录 的 内 容 。 实 体 ? 可 以 表示 现实 世界 中 
的 众多 概念 ， 如 和 人 人、 地 点 、 对 象 、 事 件 、 项 目 等 。 例如， 一 个 零售 公司 的 ER 图 可 能 包含 顾 


客 (CUSTOMER)、 商 店 (STORE )、 产 品 (PRODUCT) 和 交易 额 (SALES TRANSACTION ) 


昌 实体 有 时 也 称 作 “ 实 体 类 型 "*， 本 书 将 简单 地 使 用 术语 “实体 ”。 
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四 个 实体 。 

ER 图 用 矩形 代表 实体 ， 实 体 名 写 在 矩形 里 面 ， 同 一 个 ER 图 中 的 不 同 实体 应 该 有 不 同 
名 字 . 图 2-1 展示 了 CUSTOMER 及 STORE 两 个 实体 的 例子 。 

图 2-1 中 每 个 实体 包含 多 个 实体 实例 /实体 成 员 (entity instance/entity member)， 如 实 
体 CUSTOMER 可 能 包含 Joe 、Sue 、Pat 等 实例 。 实 体 本 身 需 要 画 在 ER 图 中 ， 实 体 实 例 虽 


然 不 需要 表示 在 ER 图 中 ， 但 会 被 记录 到 根据 该 
ER 图 所 创建 的 数据 库 之 中 。 


2.4 ”属性 (唯一 和 非 唯一 ) 图 2-1 两 个 实体 


ER 图 中 每 个 实体 都 有 属性 ， 实 体 的 一 个 属性 描述 该 实体 的 一 种 特征 。 由 于 实体 表示 的 
是 数据 库 所 记录 内 容 的 组 件 ， 因 而 实体 属性 表示 每 个 实例 需要 记录 的 细节 。 例 如 ， 对 实体 
CUSTOMER 可 以 记录 以 下 属性 : 编号 (CustID )、 姓 名 (CustName)、 生 日 (CustBDate )、 人 性 
别 (CustGender)。 图 2-2 描述 了 如 何 将 属性 填 入 ER 图 中 : 每 个 属性 由 一 个 写 有 属性 名 字 的 
顶 圆 表示 ， 同 一 个 实体 的 不 同属 性 名 字 不 同 ， 每 个 橱 圆 用 一 条 线 连 接 到 相应 实体 .唯一 属性 
( unique attribute) 是 指 可 以 唯一 标识 实体 实例 的 
属性 。 通 常 来 说 一 个 实体 至 少 要 有 一 个 唯一 属 
性 。 如 图 2-2 所 示 ，ER 图 中 实体 的 唯一 属性 都 
带 有 下 划 线 。 该 图 所 示 的 数据 库 需 求 表明 ， 每 
个 顾客 的 编号 必须 唯一 ， 但 两 个 或 多 个 顾客 的 
生日 、 姓 名 或 性 别 则 可 以 相同 。 


2.5 联系 


ER 图 中 每 个 实体 必须 通过 联系 至 少 与 一 个 其 他 实体 相关 联 。 在 ER 图 中 联系 ?表示 为 一 
个 萎 形 ， 鞭 形 中 间 写 有 代表 联系 名 字 的 词 或 短语 ， 萎 形 与 所 有 参与 该 联系 的 实体 进行 连 线 。 







CustGender 







CustID CustBDate 


CUSTOMER 






图 2-2 ”一 个 带 属 性 的 实体 


基数 约束 

ER 图 中 ， 在 实体 与 联系 的 连 线 上 往往 写 有 一 些 符号 ， 这 些 符号 就 是 基数 约束 ( cardinality 
constraint)。 基 数 约束 用 于 表示 该 实体 可 以 有 多 少 实例 与 另 一 实体 的 实例 存在 联系 。 考 虑 图 2-3 
中 的 ER 图 ， 萎 形 “ ReportsTo ”表示 实体 EMPLOYEE 和 实体 DEPARTMENT 之 间 的 联系 。 而 
表示 基数 约束 的 符号 则 常常 写 于 实体 和 联系 之 间 靠 近 实 体 一 端的 连 线 上 。 









EmpName DeptLocation 


















EMPLOYEE D ReportsTo DEPARTMENT 


图 2-3 ”两 个 实体 间 的 联系 
每 个 基数 约束 包含 以 下 两 个 部 分 : 


昌 联系 有 时 候 也 称 作 “联系 类 型 ”"。 本 书简 单 地 使 用 术语 “联系 ”。 
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e。 最 大 基数 (maximum cardinality ) 一 一 靠近 实体 一 端的 基数 约束 部 分 ; 

e 最 小 基数 / 参与 (minimum cardinality/participation ) 远离 实体 一 端的 基数 约束 部 分 。 
最 大 基数 可 以 是 一 个 (表示 为 “|”) 或 多 个 (表示 为 “3》"” )。 

最 小 基数 可 以 是 可 选 的 (表示 为 “0”) 或 者 是 强制 的 (表示 为 “|”)。 

图 2-4 列 出 了 实体 A 与 联系 B 之 间 所 有 四 种 可 能 的 基数 约束 。 





可 选 的 多 个 





实体 A 联系 B Ee 强制 的 一 个 


图 2-4 ”四 种 可 能 的 基数 约束 


接 下 来 将 以 图 2-3 中 包含 关系 ReprotsTo 的 ER 图 为 例 说 明基 数 约束 的 概念 。 以 下 是 
图 2-3 中 ER 图 的 基本 需求 : 

@ 数据 库 将 记录 职员 (employee) 和 部 门 (department) 信息 。 

e@ 对 每 个 职员 记录 其 姓名 及 唯一 职员 编号 (employeeID ) 。 

e 对 每 个 部 门 记录 其 唯一 部 门 编号 (departmentID) 和 位 置 。 

e 每 个 职员 必须 且 只 能 为 一 个 部 门 作 报 告 。 一 个 部 门 可 以 有 许多 职员 为 其 报告 ， 但 也 

可 以 没有 任何 职员 。 
首先 考虑 图 2-3 中 ReprotsTo 菱形 右 侧 的 基数 约束 符号 “||”。 强 制 参 与 符号 (本 例 中 的 左 侧 
坚 线 ) 表示 每 个 职员 必须 至 少 为 一 个 部 门 作 报告 。 换 言 之 ， 关 系 ReortsTo 的 EMPLOYEE 实 
体 的 最 大 基数 约束 是 1。 最 大 基数 约束 符号 一 个 (本 例 中 的 右 侧 竖 线 ) 表示 每 个 职员 至 多 可 
以 为 一 个 部 门 作 报 告 。 因 此 ， 这 两 个 符号 放 在 一 起 ， 表 示 每 个 职员 必须 且 只 能 为 一 个 部 门 作 
[15 | 报告 。 

接 下 来 考虑 ReportsTo 菱形 左 侧 的 基数 约束 符号 “30”。 可 选 和 参与 符号 (0 ) 表示 部 门 可 
以 没有 职员 来 作 报告 ， 换 言 之 ，ReportsTo 关系 中 的 DEPARTMENT 实体 的 最 小 基数 约束 是 
0， 最 大 基数 约束 多 个 (3) 表示 一 个 部 门 可 能 有 多 个 职员 来 作 报告 。 因 此 ， 这 两 个 符号 放 在 
一 起 表示 每 个 部 门 可 以 有 多 个 职员 来 作 报告 ， 但 也 可 以 没有 。 换 言 之 ， 一 个 部 门 最 少 有 0 个 
职员 ， 最 多 有 多 个 职员 。 

注意 ， 解 释 ER 图 中 联系 的 合理 方法 ， 是 利用 短 形 - 鞭 形 -基数 约束 -和 天 形 规则 分 别 从 


希 2 偶 斤 据 摩 需 天 与 ER 建 榜 17 


相反 方向 分 两 次 来 考虑 这 个 关系 。 例 如 ， 联 系 ReportsTo 就 可 以 解释 成 : 
e@ 一 个 方向 : 矩形 (职员 ) - 菱形 ( 作 报 告 ) - 基数 约束 (有 且 仅 有 一 个 ) - 算 形 (部 门 ); 
e 另 一 个 方向 : 矩形 (部 门 )- 菱形 (接受 报告 )- 基数 约束 (从 0 到 多 个 )- 和 窍 形 (职员 )。 
为 进一步 重申 关系 和 基数 约束 的 概念 ， 本 书 接 下 来 将 在 图 2-5 中 给 出 ReportsTo 联系 的 几 种 
可 能 版 本 (为 简洁 起 见 ， 省 略 了 实体 属性 )。 


EMPLOYEE DD DEPARTMENT | 版 本 B 
EMPLOYEE DD < DEPARTMENT 版 本 CC 


EMPLOYEE DD ReportsTo (HH DEPARTMENT 版 本 D 


图 2-5 ReportsTo 联系 的 几 种 可 能 版 本 


以 下 是 每 个 版 本 的 需求 . 

版 本 A: 

e@ 每 个 职员 必须 且 只 能 为 一 个 部 门 作 报告 。 一 个 部 门 可 能 同时 有 多 个 职员 作 报 告 ， 也 
可 能 没有 . 

版 本 B: 

@ 一 个 职员 可 以 为 一 个 或 者 不 为 任何 部 门 作 报告 。 一 个 部 门 可 以 同时 有 多 个 职员 作 报 
告 ， 也 可 能 没有 任何 职员 - 


版 本 C: 
@ 每 个 职员 必须 且 只 能 为 一 个 部 门 作 报 告 。 一 个 部 门 必须 有 至 少 一 个 职员 作 报 告 ， 也 

可 以 同时 有 多 个 职员 ， 16] 
版 本 D: 


e 一 个 职员 可 以 为 一 个 或 者 不 为 任何 部 门 作 报 告 。 一 个 部 门 必 须 有 至 少 一 个 职员 作 报 
告 ， 也 可 以 同时 有 多 个 职员 。 


2.6 联系 类 型 (最 大 基数 侧 ) 


联系 两 侧 的 最 大 基数 约束 可 为 一 个 或 者 多 个 。 因 此 ， 知 不 考虑 最 小 基数 而 仅 考 虑 最 大 基 
数 ， 则 联系 共有 以 下 几 种 情况 : 
e 一 对 一 联系 (1 : 1)。 
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e 一 对 多 联系 (1 : MI)。 

es 多 对 多 联系 (M : N)。 

图 2-6 给 出 了 这 三 种 类 型 的 联系 及 其 最 大 基数 侧 (由 于 最 小 基数 不 影响 最 大 基数 ， 为 简 
.17|] 明 起 见 ， 将 其 省 略 )。 


一 对 多 
(多 对 一 ) 


图 2-6 联系 的 三 种 类 型 (最 大 基数 侧 ) 


图 2-3 和 2-5 给 出 了 1 : M 联系 的 例子 。 图 2-7 的 例子 同样 也 是 1 : M 联系 ， 该 联系 
e@ 每 个 商店 ( store) 必须 且 只 能 位 于 一 个 区 域 (region)。 每 个 区 域内 至 少 要 有 一 个 商 
店 ， 当 然 也 可 以 有 多 个 商店 。 


| STORE IsLocatedin REGION 
J 


图 2-7 1 : M 联系 


图 2-8 给 出 了 一 个 M : N 联系 的 例子 ， 反 映 的 需求 如 下 : 
e@ 一 个 职员 (employee) 可 能 分 配 了 多 个 项 目 (project)， 但 也 可 能 一 个 项 目 也 没有 。 一 
个 项 目 至 少 应 分 配给 一 个 职员 ， 当 然 也 可 以 分 给 多 个 职员 共同 完成 。 
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图 2-8 M : N 联系 


图 2-9 给 出 了 一 个 1 : 1 联系 ,反映 的 需求 如 下 : 
@ 每 个 职员 (employee) 要 么 分 有 一 辆 车 (vehicle)， 要 人 么 一 辆 也 没有 。 每 辆 车 必须 且 只 
能 分 给 一 个 职员 。 


EMPLOYEE < (入 vEHICLE 


图 2-9 1 : 1 联系 


2.7 联系 和 联系 实例 


前 面 曾 经 讲 过 ， 每 个 实体 都 有 自己 的 实例 ， 如 实体 EMPLOYEE 可 能 有 实例 Bob、Lisa、 
Maria 等 。 实 体 本 身 需 要 画 在 ER 图 中 ， 实 体 实 例 虽 然 不 需要 表示 在 ER 图 中 ， 但 会 被 记录 


到 根据 该 ER 图 所 创建 的 数据 库 之 中 。 与 此 类 似 ， 联 系 也 有 自己 的 实例 。 图 2-10 给 出 了 一 
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个 联系 及 其 实例 的 例子 。 


如 图 2-10 所 示 ， 当 一 个 实体 的 实例 通过 联系 与 男 一 个 实体 的 实例 相关 联 时 ， 一 个 联系 
实例 就 产生 了 。 就 像 实体 和 实体 实例 的 情况 一 样 ， 联 系 本 身 会 被 画 进 ER 图 ， 联 系 实例 则 不 


EMPLOYEE (HH 和 PROJECT 


联系 实例 (对 于 联系 AssignedTo ) 







Annual Audit 


Reorganization 







Fall Marketing 
Campaign 






实体 EMPLOYEE 的 实例 实体 PROJECT 的 实例 
图 2-10 一 个 联系 及 其 实例 


需要 表示 在 ER 图 中 ， 但 会 被 记录 到 根据 该 ER 图 所 创建 的 数据 库 中 。 


注意 ， 图 2-10 中 的 实体 EMPLOYEE 在 联系 AssignedTo 中 为 可 选 参 与 ， 所 以 才 可 
能 存在 职员 (如 Matt) 与 右边 所 有 项 目 都 不 相连 的 情况 。 而 由 于 PROJECE 实体 在 联系 
AssignedTo 中 为 强制 参与 ， 因 此 每 一 个 PROJECT 的 实例 都 必须 至 少 与 一 个 EMPLOYEE 实 


体 的 实例 存在 连 线 。 
2.8 联系 属性 


在 许多 情况 下 ， 多 对 多 联系 有 自己 的 属性 ， 这 些 属 性 就 是 联系 属性 (relationship 


attributes)。 图 2-11 给 出 了 一 个 例子 ， 该 ER 图 的 需求 如 下 : 
@ 数据 库 将 记录 学 生 (students) 和 校园 组 织 (campus organizations) 信息 。 


对 每 个 学 生 记 录 其 唯一 学 号 (student ID )、 姓 名 (name) 及 性 别 (gender)。 


@ 对 每 个 校园 组 织 记 录 其 唯一 组 织 编号 (organization ID ) 和 位 置 (location ) 。 


数据 库 中 每 个 学 生 必 须 至 少 属于 一 个 校园 组 织 ， 也 可 以 同时 属于 多 个 组 织 。 
@ 数据 库 中 每 个 校园 组 织 至 少 有 一 个 学 生 加 入 其 中 ， 也 可 以 同时 拥有 多 个 学 生 。 

对 属于 某 个 校园 组 织 的 每 个 具体 的 学 生 实 例 ， 记 录 该 学 生 在 该 校园 组 织 中 的 职能 
(function)( 如 主席 、 副 主席 、 会 计 、 成 员 等 )。 











OrgLocation 


ORGANIZATION 
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N 





图 2-11 市 有 一 个 属性 的 M : N 联系 
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上 面 的 最 后 一 条 需求 表明 ， 一 个 学 生 在 不 同 的 校园 组 织 中 可 以 有 多 个 不 同 的 职能 。 和 大 将 职能 
作为 实体 STUDENT 的 一 个 或 多 个 属性 ， 则 无 法 知道 某 个 职能 是 该 学 生 在 哪个 社会 组 织 中 的 
职能 。 若 将 职能 作为 ORGANIZATION 的 一 个 或 多 个 属性 ， 又 无 法 知道 该 社会 组 织 的 某 职能 
具体 由 哪个 学 生来 担任 。 因 此 ， 如 图 2-11 所 示 ， 职 能 属性 唯一 恰当 的 位 置 是 作为 BelongsTo 
联系 的 属性 。 












STUDENT DpD COLLEGE 


图 2-12 带 有 和 不 带 有 一 个 属性 的 1 : M 联系 


接 下 来 讨论 1 : 1 联系 与 1 : M 联系 是 否 也 可 以 拥有 属性 。 为 了 回答 这 个 问题 ， 图 2-12 
给 出 了 两 个 有 细微 差别 的 ER 图 ， 这 两 个 图 的 需求 如 下 : 

@ 数据 库 记 录 学 生 (student) 和 学 院 (college) 信息 。 

@ 对 每 个 学 生 记 录 其 姓名 和 唯一 学 号 (student ID ) 。 

@ 对 每 个 学 院 记 录 其 唯一 名 称 (name) 和 位 置 (location ) 。 

@ 每 个 学 生 必 须 且 只 能 加 入 一 个 学 院 。 

@ 每 个 学 院 有 多 个 学 生 。 

@ 对 每 个 学 生 记 录 其 注册 进入 学 院 的 日 期 。 
图 2-12 的 上 半 部 分 给 出 了 1 : M 联系 的 一 个 属性 。 下 半 部 分 基于 同样 的 需求 ， 但 将 学 生 
的 注册 日 期 作为 实体 STUDENT 的 属性 StudentCollSdate， 而 不 是 作为 联系 Attends 的 属 
性 DateStarted。 由 于 一 个 学 生 只 能 加 入 一 个 学 院 ， 因 此 该 学 生 加 入 该 学 院 的 日 期 可 以 作为 
STUDENT 实体 本 和 号 的 一 个 属性 。 如 本 例 所 述 ，1 : M 联系 的 一 个 属性 可 转化 为 在 该 联系 中 
最 大 基数 为 1 的 实体 属性 (本 例 中 的 STUDENT )。 更 一 般 地 讲 ， 联 系 属性 可 以 转化 为 在 该 
联系 中 最 大 基数 为 1 的 实体 属性 。 因 此 ，1 : M 联系 或 1 : 1 联系 的 属性 都 不 是 必要 的 。 相 
反 ， 如 图 2-11 所 示 ， 对 一 些 M : N 联系 来 说 ， 属 性 则 是 必要 的 。 


2.9 实例 : 数据 库 需 求 集 及 其 ER 图 

下 面 这 些 与 零售 相关 的 实例 都 是 数据 库 需 求 及 其 对 应 ER 图 的 例子 。 

ZAGI 和 零售 公司 的 销售 部 门 准 备 创 建 一 个 数据 库 来 记录 销售 过 程 的 细节 。 在 访问 公司 并 
学 习 了 公司 文件 以 后 ， 数 据 库 团队 抽取 出 了 如 下 需求 。 
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ZAGI 零售 公司 销售 部 门 数据 库 将 收集 如 下 数据 : 


图 2-13 乡 


对 每 个 在 售 产品 ( product) : 产品 号 (product ID) (唯一 )、 产 品名 称 (product name)、 
价格 (price ); 
对 每 个 种 类 (category ): 种 类 号 (category ID)( 唯 一 )、 种 类 名 称 (category name ); 
对 每 个 自动 售 货 机 ( vendor): 售 货 机 号 (vendor ID) (唯一 )、 售 货机 名 称 〈(vendor 
name ); 
对 每 位 顾客 (customer): 顾客 号 (customer ID )( 唯 一 )、 姓 名 (name)、 邮 政 编 码 (zip 
code ); 
对 每 个 商店 (store): 商店 号 (store ID)( 唯 一 )、 邮 政 编 码 (zip code ); 
对 每 个 区 域 (region ): 区 域 号 (region ID )( 唯 一 )、 区 域名 称 (region name ); 
对 每 项 销售 交易 (sales transaction ) : 交易 号 (transaction ID)( 唯 一 )、 交 萄 时 间 (date 
of transaction ) 。 
每 个 产品 必须 且 只 能 由 一 个 售 货 机 供应 ; 
每 个 售 货 机 可 以 包含 一 个 或 多 个 产品 。 
每 个 产品 必须 且 只 能 属于 一 个 种 类 ; 
每 个 种 类 可 以 包含 一 个 或 多 个 产品 。 
每 个 商店 必须 且 只 能 位 于 一 个 区 域 ; 
每 个 区 域 可 以 包含 一 个 或 多 个 商店 。 
每 项 销售 交易 只 能 出 现在 一 个 商店 中 ; 
每 个 商店 可 以 有 一 项 或 多 项 销售 交易 发 生 。 
每 项 销售 交易 必须 且 只 能 跟 一 位 顾客 相关 ; 
每 位 顾客 可 以 与 一 项 或 多 项 销售 交易 相关 。 
每 个 产品 可 以 通过 一 项 或 多 项 销售 交易 售 出 ; 
每 项 销售 交易 可 以 包含 一 个 或 多 个 产品 。 
对 于 每 个 通过 销售 交易 售 出 的 产品 实例 ， 记 录 其 售 出 的 数量 。 
全 出 了 基于 以 上 需求 得 到 的 ER 图 。 注 意 ，ER 符号 体系 的 知识 ， 能 够 为 数据 库 需 求 


收集 人 员 获 得 结构 化 的 、 有 用 的 需求 提供 帮助 。 换 言 之 , ER 图 的 构建 必须 以 完成 数据 库 需 
求 搜集 过 程 为 基础 ， 认 清 这 一 点 可 以 帮助 数据 库 需 求 收集 人 员 提 出 恰当 的 问题 。 下 面 列 出 了 
几 个 相应 问题 的 例子 (来 自 图 2-13 中 ER 图 的 需求 搜集 过 程 ): 


对 一 位 顾客 ， 你 最 想 记录 什么 信息 ? (顾客 号 、 姓 名 及 邮政 编码 ) 

每 位 顾客 的 顾客 号 是 否 唯 一 ? (是 的 ) 

每 位 顾客 的 姓名 是 否 唯一 ? (不 是 ) 

一 个 产品 属于 一 个 种 类 还 是 多 个 ? (一 个 ) 

一 个 产品 是 否 只 能 来 自 一 个 售 货 机 ? (是 的 ) 

是 否 曾 经 有 过 某 售 货机 不 提供 任何 产品 的 情况 ? (没有 ) 

是 否 需 要 记录 那些 到 目前 为 止 没有 买 过 任何 商品 的 顾客 (那些 没有 参与 任何 销售 交易 
的 顾客 ) ? (不 需要 ) 
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图 2-13 一 个 ER 图 实例 ， ZAGI 零售 公司 销售 部 门 数 据 库 


2.10 复合 属性 


除 前 文中 提 到 的 常规 属性 外 ，ER 图 还 可 以 描述 几 种 其 他 属性 ， 复 合 属性 (composite 
attribute) 就 是 其 中 的 一 种 。 复 合 属 性 是 
若干 属性 的 组 合 ， 图 2-14 就 给 出 了 一 
复合 属性 的 例子 。 

在 图 2-14 中 ， 属 性 CustFullName ( 顾 
客 全 名 ) 由 两 个 部 分 组 成 : 属性 CustFName 


(顾客 名 字 ) 和 属性 CustLName( 顾客 姓氏 )。 CustBdate 
复合 属性 用 于 表示 由 若干 单个 属性 组 成 的 





属性 集合 拥有 新 含义 的 情况 。 在 图 2-14 oe 
中 ， 实 体 CUSTOMER 有 5 个 属性 : 编号 ee 
(CustID) (描述 顾客 信息 的 唯一 标识 号 )、 性 别 (CustGender)、 生 日 (CustBdate)、 名 字 
(CustFName)、 姓 氏 ( CustLName)。 全 名 并 不 是 实体 CUSTOMER 的 额外 属性 ， 相 反 ， 它 仅仅 
表示 将 名 字 和 姓氏 结合 起 来 以 后 所 得 到 的 完整 的 顾客 姓名 。 

图 2-15 给 出 了 男 一 个 复合 属性 的 例子 。 实 体 STORE 共有 6 个 属性 ， 每 个 属性 都 有 自己 
的 意义 。 若 将 属性 街道 (Street)、 编 号 (StreetNumber)、 城 市 (City)、 州 (State)、 邮 编 (Zip) 
放 在 一 起 考虑 ， 则 可 得 到 一 个 新 的 含义 : 商店 地 址 (Store Address ) 。 

图 2-16 给 出 了 包含 7 个 属性 的 BOUTIQUECLIENT 实体 的 例子 。 这 家 独 具 一 格 的 裁缝 
店 记 录 了 每 位 顾客 的 尺寸 信息 及 顾客 的 名 字 (firstname)。 同 时 ， 该 裁缝 店 还 记录 了 顾客 的 
5 种 穿 衣 指数 : 腿 长 (inseam)、 腰 围 〈(waist)、 袖 长 (sleeves)、 肩 宽 ( shoulders) 以 及 领 围 
( collar)。 这 个 例子 说 明 一 个 简单 属性 可 能 是 多 个 复合 属性 的 组 成 部 分 。 腿 长 及 腰围 可 组 成 
属性 裤子 尺寸 (pantsize)， 而 腰围 、 肩 宽 、 领 围 及 袖 长 可 组 成 属性 衬衣 尺寸 (shirtsize ) 。 
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StreetNumber 





图 2-15 男 一 个 拥有 复合 属性 的 实体 
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图 2-16 复合 属性 共享 成 分 


2.11 复合 的 唯一 属性 
图 2-17 给 出 了 拥有 复合 的 唯一 属性 (composite unique attribute) 的 实体 例子 。 在 图 2-17 
中 ， 教 学 楼 ( Building )、 房 间 号 (Room Number)、 座 
Bulldin oomNumber 
位 数 (Number of seats) 是 实体 CLASSROOM 的 三 
属性 ,但 它们 都 不 唯一 。CLASSROOM 实体 的 需求 表 













NoOfSeats 


(ClassroomID) 








示 如 下 : 
e@ 同一 栋 教学 楼 中 可 以 有 多 个 教室 (如 A 教学 楼 
中 有 若干 个 教室 )。 CLASSROOM 
@ 可 以 有 多 个 教室 拥有 相同 的 房间 号 (如 A 教学 
楼 的 111 房间 与 B 教学 楼 的 111 房间 )。 图 2-17 拥有 复合 的 唯一 属性 的 实体 


@ 可 以 有 多 个 教室 拥有 相同 的 座位 数 (如 若干 个 教室 都 有 40 个 座位 )。 
由 于 三 个 属性 都 不 唯一 ， 所 以 CLASSROOM 没有 一 个 可 以 唯一 标识 其 本 身 的 简单 属性 
(single-component)。 然 而 教学 楼 和 房间 号 两 个 属性 的 结合 却 是 唯一 的 (因为 在 整个 数据 库 
中 ， 给 定 教学 楼 和 房间 号 可 以 确定 唯一 教室 )， 因 此 ， 这 两 个 属性 组 成 的 复合 属性 可 以 作为 
唯一 属性 。 

复合 属性 ClassroomID 使 得 实体 CLASSROOM 符合 每 个 实体 至 少 要 有 一 个 唯一 属性 的 
规则 。 


2.12 多 个 唯一 属性 (候选 码 ) 


图 2-18 给 出 的 实体 同时 拥有 多 个 唯一 属性 ， 这 里 的 每 个 唯一 属性 就 叫做 一 个 候选 码 
(candidate key)。 "候选 ”的 意义 在 于 : 这 些 属性 都 可 作为 构建 整个 数据 库 时 主要 区 别 属性 (或 
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称 主 码 ) 的 备 选 。 换 言 之 ， 这 些 候选 码 中 的 一 个 会 成 为 表 中 该 实体 的 主 码 。 主 码 将 在 第 3 章 
进行 讨论 。 

在 图 2-18 中 ， 属 性 EmpID 和 SSN 都 可 以 
区 分 一 个 EMPLOYEE 实体， 因此 两 者 都 是 
EMPLOYEE 的 候选 码 。 所 有 候选 码 都 有 下 划 线 
标识 。 属 性 薪水 (Salary ) 并 不 唯一 ， 因 此 不 是 EMPLOYEE 

一 个 实体 可 以 同时 将 常规 属性 (单个 复合 
属性 ) 或 复合 属性 作为 主 码 。 图 2-19 中 ， 实 体 VEHICLE 的 属性 VIN ( vehicle identification 
”124| number) 是 唯一 的 ， 同样 ，State 和 LPNumber 组 合 起 来 的 复合 属性 LPlate 也 是 唯一 的 。 


LPNurmber 


(LPlate) ) 





图 2-18 拥有 多 个 唯一 属性 (候选 码 ) 的 实体 









加 2-19 ”拥有 一 个 单一 的 和 复合 的 候选 码 的 实体 


2.13 多 值 属 性 


多 值 属性 ( multivalued attribute ) 用 于 实体 实例 的 同一 属性 可 以 有 多 个 不 同 取 值 的 情况 。 
图 2-20 给 出 了 一 个 有 多 值 属 性 的 实体 例子 ， 标 识 多 值 属性 的 椭圆 外 画 有 双 线 。 图 2-20 中 的 
ER 图 需要 记录 用 户 的 多 个 电话 号 码 - 

多 值 属性 用 于 那些 属性 取 值 多 于 一 个 的 实体 ， 图 2-20 就 是 这 样 的 情景 : 对 于 每 个 职员 ， 
需要 记录 符 干 个 联系 电话 。 例 如 ， 某 职员 可 能 有 两 个 联系 电话 ， 而 有 些 职 员 可 能 有 多 于 两 个 
的 联系 电话 ， 或 是 少 于 两 个 的 联系 电话 。 

如 图 2-21 所 示 ， 若 对 每 个 职员 都 记录 两 个 联系 电话 (办公 室 电话 和 手机 )， 则 不 需要 使 
用 多 值 属性 ， 只 要 分 别 使 用 两 个 单 值 属性 就 可 以 了 。 







OfficePhone 







EmplD PhoneNurnber 





Cellphone 





EMPLOYEE 





EMPLOYEE 


图 2-20 一 个 多 值 属性 图 2-21 不 使 用 多 值 属性 的 场景 


2.14 派生 属性 
派生 属性 ( derives attribute) 是 非 永久 性 存 于 数据 库 的 属性 。 派 生 属 性 的 值 可 以 从 别 的 
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属性 值 或 其 他 数据 (如 当前 日 期 ) 派生 出 来 。 图 2-22 给 出 了 一 个 从 ER 模型 中 得 到 派生 属性 
的 例子 。 

派生 属性 用 虚线 的 椭圆 标识 ， 属 性 Opening- 
Date 作为 一 个 常规 属性 会 存 于 最 终 的 数据 库 中 ， 
YearsInBusiness 作为 一 个 派生 属性 则 不 会 存 于 
数据 库 中 ， 而 是 从 商店 的 OpeningDate 及 当前 
日 期 中 派生 出 来 。 如 果 YearsInBusiness 是 一 个 
常规 属性 ， 其 值 将 存 于 数据 库 中 且 需 要 人 工 更 图 2-22 一 个 派生 属性 的 例子 
新 (一般 每 年 一 次 )， 否 则 数据 库 中 将 出 现 错误 信息 。 而 将 YearsInBusiness 作为 派生 属性 后 ， 
就 可 以 确保 数据 库 以 后 将 该 属性 作为 一 个 公式 ， 用 于 得 到 正确 的 当前 YearsInBusiness 的 属 
性 值 。 

图 2-23 给 出 了 男 一 个 派生 属性 的 例子 。 在 本 例 中 ， 对 与 REGION 的 实例 有 IsLocatedIn 
联系 的 STORE 实例 进行 计数 ， 就 可 以 得 出 派生 属性 NoOfStores 的 值 。 





一 
! NoOfStores ) 
、 一 


Te 






REGION 








实体 STORE 的 实例 实体 REGION 的 实例 


图 2-23 田 一 个 派生 属性 的 例子 


在 本 例 中 ， 属 性 NoOfStores 在 东区 ( East)、 中 心 区 (Central)、 西 区 ( West) 的 值 分 别 
为 1、2、1。 如 果实 体 STORE 有 了 一 个 新 的 实例 StoreE， 且 该 实例 通过 新 的 IsLocatedIn 联 
系 实 例 与 REGION 实例 West 相关 ， 则 西区 ( West) 的 派生 属性 NoOfStores 会 自动 地 从 1 增 
加 为 2。 


2.15 ”可 选 属性 


对 每 个 实例 ， 实 体 的 大 部 分 属性 都 有 相应 
的 取 值 ， 但 有 的 属性 也 可 能 没有 取 值 ， 这 些 属 
性 就 是 可 选 属性 (optional attribute ) 。 图 2-24 给 
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@ 对 每 个 职员 记录 其 唯一 的 编号 (employee ID) 及 其 薪水 (salary) 和 年 终 奖 (annual 
bonus)。 但 并 非 所 有 职员 都 有 年 终 奖 (annual bonus ) 。 
图 中 的 实体 只 有 一 个 可 选 属 性 ， 其 他 属性 均 为 必需 属性 。 我 们 在 属性 名 后 加 一 个 带 括号 
的 大 写字 母 O 来 表示 可 选 属性 。 


2.16 实例: 包含 多 种 类 型 属性 的 实体 
简单 回顾 一 下 各 种 类 型 的 属性 ， 


图 2-25 展示 了 一 个 包含 多 种 类 型 属性 的 实 Cr) 
体 。 该 实体 反映 了 以 下 需求 Core) 
@ 数据 库 将 记录 雇员 信息 。 Ce ) 
。 对 于 每 一 名 雇员 ， 将 记录 以 下 属 Cemao ) (型 > 
性 : 麻 员 的 唯一 ID、 唯一 的 e-mail、  __ 一 
姓 、 名 ( 姓 和 名 可 以 组 合成 完整 的 ( me ， Cser ) 


姓名 )、 多 个 电话 号 码 、 出 生日 期 、 和 


年 龄 (通过 出 生日 期 和 当前 日 期 计 (Gateom) Ceonus (0)) 
算 )、 工 资 、 奖 金 (可 选 )、 多 种 技 
能 、 唯 一 的 社会 保险 号码 ， 雇 员 首 ke》 1. 


、 

( YearsWithCo) 

Re J 
we 


次 被 雇佣 的 日 期 以 及 雇员 在 该 公司 
的 工作 年 限 (通过 雇员 首次 被 雇佣 图 2-25 拥有 多 种 类 型 属性 的 实体 
的 日 期 和 当前 日 期 计算 )。 


2.17 联系 中 最 小 基数 和 最 大 基数 确切 值 


在 某 些 情况 下 ， 联 系 中 的 最 小 基数 和 最 大 基数 确切 值 (exact minimum and/or maximum 
cardinality) 是 事先 知道 的 。 在 本 书 中 ,我 们 用 圆 插 号 括 起 来 的 一 对 数 表示 最 小 基数 和 最 大 
基数 ， 括 号 内 的 第 一 个 数 表示 最 小 基数 ， 第 二 个 数 表示 最 大 基数 。 根 据 事先 知道 的 最 小 基数 
和 最 大 基数 的 信息 ， 这 些 数 对 可 以 出 现在 联系 的 任意 一 边 或 者 两 边 。 

如 图 2-26 所 示 ， 对 于 联系 EnrollsIN ， 需 求 如 下 : 

@ 每 名 学 生 必 须 选 择 最 少 2 门 最 多 6 门 课 程 ， 且 一 门 课 程 要 有 最 少 5 名 最 多 40 名 学 生 。 


Sr we 






STUDENT 


图 2-26 具有 确定 最 小 基数 和 最 大 基数 的 联系 


具体 的 最 大 基数 和 最 小 基数 是 用 菱形 符号 和 基数 约束 符号 之 间 的 数 对 表示 的 。 
本 书 中 ， 当 需要 用 圆 括号 括 起 来 的 数 对 表示 最 小 和 最 大 基数 时 ， 即 使 它们 中 的 一 个 是 不 
确定 的 值 ， 我 们 仍 需要 将 两 个 值 (最 小 值 和 最 大 值 ) 都 表示 出 来 。 如 图 2-27 所 示 ， 对 于 联系 
EnrollsIN ， 需 求 如 下 : 
e@ 每 名 学 生 最 多 选择 6 门 课程 ， 也 可 以 不 选任 何 课 程 。 一 门 课 程 必须 要 有 至 少 5 名 学 
生 ， 选 课 人 数 没 有 上 限 。 
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图 2-27 一 个 既 有 确定 的 又 有 不 确定 的 基数 的 联系 


在 这 个 例子 中 ， 通 过 两 种 方式 表明 实体 STUDENT 可 选 地 参与 到 联系 EnrollsIn 中 : 一 
种 是 使 用 最 小 基数 的 可 选 参 与 符号 ; 另 一 种 是 通过 联系 符号 与 基数 约束 符号 之 间 的 数 对 说 明 
最 小 约束 为 0。 同样 ， 实 体 CLASS 的 最 大 基数 (多 个 但 没有 确定 值 ) 也 是 通过 两 种 方式 来 
说 明 的 : 一 种 是 通过 鸭 掌 符号 (《) 说 明 最 大 基数 ; 另 一 种 是 通过 数 对 中 的 字母 M 表明 最 大 
基数 。 


2.18 一 元 联系 和 联系 的 角色 


联系 的 度 ( degree of a relationship) 表示 有 多 少 个 实体 参与 到 该 联系 中 。 目 前 为 止 ， 
本 书 所 涉及 的 联系 都 只 涉及 两 个 实体 。 两 
个 实体 之 间 的 联系 叫做 二 元 联系 (binary 
relationship) 或 者 度 为 2 的 联系 (因为 该 联 
系 涉 及 两 个 实体 )。 尽 管 绝 大 多 数 业务 ER 图 
中 的 联系 都 是 二 元 联系 ， 但 是 也 会 出 现 度 不 
为 2 的 联系 。 度 为 1 的 联系 也 称 为 一 元 联系 
( unary relationship) 或 者 递归 联系 (recursive 
relationship)， 出 现在 一 个 实体 与 它 自己 相 联 
系 的 情况 中 。 图 2-28 展示 了 三 个 一 元 联系 的 例子 , 分 别 是 1 : NM : N 和 1 : 1 三 种 情况 。 
图 2-28 中 ， 例 A 的 需求 如 下 : 
@ 一 个 客户 可 以 推荐 多 个 客户 ， 也 可 以 不 推荐 任何 客户 。 每 个 客户 可 以 由 另 一 个 客户 
推荐 或 者 没有 被 任何 客户 推荐 。 
图 2-28 中 , 例 B 的 需求 如 下 : 
e@ 一 个 雇员 可 以 指导 许多 雇员 ， 也 可 以 不 指导 任何 雇员 。 一 个 雇员 可 以 被 多 个 雇员 指 
导 ， 也 可 以 不 被 任何 雇员 指导 。 
2-28 中 ， 例 C 的 需求 如 下 : 
@ 在 一 个 赠送 礼物 活动 数据 库 中 (神秘 圣诞 老人 呈 )， 每 个 人 只 能 向 另 一 个 人 赠送 礼物 ， 
每 个 人 也 只 能 收 到 另 一 个 人 的 礼物 。 | 28 | 
在 ER 图 中 ， 联 系 角色 (relationship role) 可 以 表达 额外 的 语义 信息 。 数 据 建 模 者 可 以 
使 用 联系 角色 进一步 说 明 每 个 实体 在 联系 中 的 角色 。 联 系 角 色 可 以 用 在 任何 度 的 联系 中 ,但 
联系 角色 的 作用 通常 体现 在 一 元 联系 中 。 我 们 用 写 在 联系 连 线 旁边 的 文本 来 表示 联系 角色 。 
2-29 展示 了 一 些 带 有 特定 联系 角色 的 一 元 联系 的 例子 。 
图 2-29 中 的 各 图 可 以 做 如 下 额外 解释 。 





hb i 
EMPLOVEE PERSON 


例 A(1:M) 例 B(M :N) 例 C(1: 1) 
图 2-28 ”一 元 联系 的 例子 


昌 西方 过 圣诞 节 的 一 个 传统 活动 。 通 常 是 一 个 组 织 内 部 或 一 个 大 家 庭 中 ， 每 个 人 被 随机 地 分 配 以 匿名 的 方式 向 
另外 一 个 人 赠送 礼物 。 


29 


28 第 一 部 分 帮 伯 型 并 握 尾 
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例 A 例 B 例 C 
图 2-29 具有 和 角色 名 的 一 元 联系 的 例子 


图 2-29 中 ， 例 A 的 解释 如 下 : 

@ 一 个 客户 可 以 是 推荐 者 ， 推 荐 多 个 客户 。 该 客户 也 可 以 不 是 推荐 者 。 

@ 一 个 客户 可 以 是 被 推荐 者 ， 且 只 能 被 一 个 客户 推荐 。 该 客户 也 可 以 不 是 被 推荐 者 。 
图 2-29 中 , 例 B 的 解释 如 下 : 

e@ 一 个 雇员 可 以 是 指导 者 ， 指 导 多 个 雇员 ， 也 可 以 不 是 指导 者 ， 

e@ 一 个 雇员 可 以 是 被 指导 者 ， 被 多 个 雇员 指导 ， 也 可 以 不 是 被 指导 者 。 

图 2-29 中 ， 例 C 的 解释 如 下 : 

@ 一 个 人 必须 是 礼物 赠送 者 ， 且 只 能 向 一 个 人 赠送 礼物 。 

@ 一 个 人 必须 是 礼物 接受 者 ， 且 只 能 接受 一 个 人 的 礼物 。 

图 2-30 展示 了 一 个 二 元 联系 中 联系 角色 的 例子 。 


”| 
Wg 
SHIPMENT | Ships MERCHANT 
IsShippedBy Ships 


图 2-30 具有 角色 名 的 二 元 联系 的 例子 
正如 前 文中 提 到 的 ，ER 图 建 模 者 可 以 任意 使 用 联系 和 角色。 在 某 些 情况 下 ， 联 系 角 色 能 
人 够 使 问题 变 得 清晰 ， 然 而 过 度 使 用 联系 角色 会 产生 重复 问题 。 例 如 ， 在 图 2-30 中 ， 有 一 定 
经 验 的 读者 不 需要 显 式 地 通过 联系 角色 来 理解 联系 “Ships” 的 含义 。 因 此 ， 不 标明 联系 角 
色 的 ER 图 将 提供 同样 的 信息 ， 并 且 更 加 简明 。 


2.19 相同 实体 间 的 多 种 联系 


ER 图 中 ， 相 同 实体 之 间 通 过 多 种 联系 连接 起 来 的 情况 是 很 常见 的 。 图 2-31 展示 了 这 种 
情况 。 该 例子 基于 如 下 需求 : 
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图 2-31 相同 实体 间 的 多 种 联系 
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一 个 船 运 公司 要 创建 一 个 数据 库 以 记录 它 的 雇员 信息 和 包裹 信息 ， 
每 个 包 庄 只 能 由 一 个 展 员 分 拱 。 

每 个 雇员 可 以 分 拣 多 个 包 训 。 

每 个 包 训 只 能 由 一 个 尾 员 递送 。 

@ 每 个 雇员 可 以 递送 多 个 包 衷 。 


2.20 ” 弱 实 体 


通常 情况 下 ， 实 体 至 少 要 有 一 个 唯一 属性 。 在 ER 图 中 ， 弱 实体 ( week entity) 用 来 表 


示 没 有 唯一 属性 的 实体 。 弱 实体 是 用 双 框 的 矩形 表示 的 。 在 ER 图 中 ， 弱 实体 必须 和 它 的 属 
主 实体 (owner identity ) 通过 标识 性 联系 (identifying relationship) 连接 起 来 。 该 联系 是 用 双 
框 的 净 形 表示 的 。 


部 ， 
不 。 


图 2-32 展示 了 一 个 弱 实 体 的 例子 。 该 例子 基于 如 下 需求 : 

@ 一 个 公寓 出 租 公 司 要 创建 一 个 数据 库 以 记录 它 的 建筑 物 信 息 和 公寓 房间 信息 。 
对 于 每 个 建筑 物 ， 将 记录 唯一 的 建筑 物 ID 和 该 建筑 物 的 层 数 。 

对 于 每 套 公 寓 ， 将 记录 公寓 编号 和 公寓 内 的 房间 数 。 [ 30 | 
每 个 建筑 物 内 有 多 套 公 寓 ， 每 套 公 寓 只 能 位 于 一 个 建筑 物 内 。 

在 我 们 的 数据 库 中 ， 多 套 公 寓 可 以 有 相同 的 公寓 编号 ， 但 在 一 个 建筑 物 内 每 套 公 寓 


只 能 有 一 个 唯一 的 公寓 编号 。 





实体 BUILDING 联系 实例 (对 于 联系 实体 APARTMENT 
的 实例 LocatedIn ) 的 实例 


图 2-32 一 个 弱 实 体 的 例子 和 该 实体 的 实例 


正如 需求 中 描述 的 ， 实 体 APARTMENT 没 有 了 唯一 属性 。 然 而 ， 在 每 个 建筑 物 内 
公寓 编号 是 唯一 的 ， 这 种 属性 叫做 部 分 码 (partial key)， 在 ER 图 中 用 下 划 虚 线 表 
部 分 码 和 属 主 实体 的 唯一 属性 的 组 合 可 以 唯一 标识 弱 实 体 的 每 个 实例 。 例 如 ， 弱 实体 


APARTMENT 的 实例 可 以 由 它 的 部 分 码 AptNo 和 属 主 实体 BUILDING 的 主 码 BuildingID 唯 
一 标识 ， 如 下 所 示 : 


Al0l; A201 AI0L, BIAIQL, B201, GC 101, & 102, .201 


30 第 一 部 分 春 作 型 绕 据 必 


[31] 事实 上 ， 弱 实体 的 概念 和 多 值 复合 属性 的 概念 很 相似 。 图 2-33 说 明了 这 一 点。 
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图 2-33 ” 弱 实 体 与 多 值 复 合 属性 


图 2-33 中 的 两 个 ER 图 都 满足 同样 的 数据 库 需 求 。 然 而 弱 实 体 符 号 能 描述 部 分 码 ， 而 
多 值 复合 属性 则 不 能 。 例 如 ， 图 2-33 上 半 部 分 的 ER 图 中 ,我 们 能 显 式 地 说 明 一 个 建筑 物 
内 的 公寓 编号 是 唯一 的 ， 而 图 2-33 下 半 部 分 的 ER 图 则 不 能 。 

一 个 弱 实体 和 其 他 实体 之 间 可 以 有 普通 ( 非 标 识 性 的 ) 联系 ， 而 多 值 复合 属性 则 不 能 表 
现 这 种 联系 。 图 2-34 展示 了 一 个 弱 实体 参与 非 标识 性 联系 的 例子 。 
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图 2-34 一 个 有 标识 性 联系 和 普通 联系 的 弱 实体 


尽管 弱 实 体 和 多 值 复合 属性 有 很 多 相似 之 处 ， 然 而 ， 正 如 前 文 所 述 ， 这 两 个 概念 之 间 还 
是 有 显著 区 别 的 。 

每 个 弱 实 体 在 和 其 主 实体 之 间 的 标识 性 联系 中 总 存在 强制 的 一 基数 约束 ， 用 以 确保 每 个 
弱 实 体 的 实例 只 和 属 主 实体 的 一 个 实例 发 生 关 联 。 男 一 方面 ， 属 主 实体 可 以 强制 性 或 选择 
性 地 参与 到 标识 性 联系 中 。 也 就 是 说 ， 属 主 实体 中 的 实例 可 以 不 与 任何 弱 实 体 中 的 实例 发 生 
关联 。 
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大 多 数 情 况 下 ， 标 识 性 联系 都 是 1 : M 的 联系 。 然 而 ， 也 会 出 现 1 : 1 联系 的 情况 ， 
在 这 种 情况 下 ， 弱 实体 中 的 部 分 码 就 不 必 作 为 标识 属性 了 。 图 2-35 说 明了 这 种 情况 。 该 例 
子 基 于 如 下 需求 : 

@ 数据 库 将 记录 雇员 以 及 他 们 的 配偶 信息 。 

@ 对 于 每 个 雇员 ， 将 记录 他 的 唯一 ID 和 姓名 。 

@ 对 于 每 个 配偶 ， 将 记录 他 的 姓名 和 出 生日 期 。 

@ 每 个 雇员 可 以 有 一 个 配偶 或 者 没有 配偶 。 

@ 每 个 配偶 只 能 和 一 个 雇员 结婚 。 






SPOUSE 


图 2-35 一 个 有 1 : 1 标识 性 联系 的 弱 实体 


需要 注意 的 是 ， 弱 实体 SPOUSE 不 需要 部 分 标识 ， 因 为 每 个 雇员 只 能 和 一 个 配偶 相关 
联 ， 因 此 不 需要 部 分 标识 来 区 别 不 同 的 配偶 。 


2.21 实体 、 属 性 和 联系 的 命名 约定 


在 ER 建 模 的 过 程 中 ， 和 采取 特定 的 准则 来 为 实体 、 联 系 和 属性 命名 是 一 个 很 好 的 做 法 。 
在 本 书 中 ， 我 们 约定 : 使 用 大 写字 母 来 命名 实体 ， 使 用 大 写字 母 和 小 写字 母 的 组 合 来 命名 属 
性 和 联系 。 

对 于 命名 实体 和 属性 ， 一 个 常见 的 准则 是 使 用 单数 (不 使 用 复数 ) 名 词 以 使 ER 图 尽量 
清晰 易 读 。 例 如 ， 实 体 名 STUDENT、STORE 和 PROJECT 要 比 STUDENTS、STORES 和 
PROJECTS 更 好 。 同 样 ， 属 性 名 Phone 要 比 属性 名 Phones 好 ， 尽 管 它 是 一 个 多 值 属 性 。 实 
体 和 多 值 属性 都 有 多 个 实例 ， 这 点 从 概念 本 身 就 能 理解 ， 并 不 需要 使 用 一 个 复数 形式 的 词 来 
说 明 。 

对 于 命名 联系 ， 通 党 是 使 用 动词 或 动词 短语 而 不 是 名 词 。 例 如 ， 用 Inspects、Manages 
和 BelongsTo 来 命名 联系 是 比 Inspection 、Management 和 Belonging 更 好 的 选择 。 

当 命名 实体 、 属 性 和 联系 时 ， 建 议 尽 量 简洁 但 又 不 要 太 过 简略 而 使 概念 模糊 不 清 。 例 
如 ， 在 一 个 大 学 的 ER 图 中 ， 实 体 名 STUDENT 要 比 实体 名 UNIVERSITY STUDENT 更 好 。 
在 上 下 文 环境 中 ， 很 显然 STUDENT 是 指 大 学 学 生 ， 因 此 UNIVERSITY STUDENT 就 有 些 
了 见长 了 。 同 样 ， 使 用 US 作为 “University Student” 的 缩写 对 于 将 来 使 用 该 数据 库 的 一 般 用 
户 来 说 又 太 过 隐 肯 了。 这 并 不 是 说 使 用 多 个 单词 或 者 缩写 总 是 不 好 的 选择 。 例 如 ，SSN 就 
是 一 个 很 好 的 属性 名 ， 因 为 大 家 都 知道 它 是 社会 安全 号 码 的 缩写 。 而 使 用 多 个 单词 的 短语 
NoOfFloors 命名 属性 则 是 比 单个 单词 Floor 或 者 缩写 NoF 更 好 的 选择 ， 因 为 使 用 Floor 会 产 
生 歧 义 ， 大 多 数 用 户 也 都 不 会 理解 NoF 的 含义 。 

正如 本 章 开 始 所 提 到 的 ，ER 建 模 的 一 条 基本 规则 是 同一 个 实体 内 的 属性 必须 有 不 同 的 
名 称 。 而 ER 建 模 中 一 个 良好 的 规则 是 使 整个 ER 图 中 的 属性 名 均 不 相同 。 例 如 ， 不 要 使 用 
单词 Name 表示 两 个 不 同 实体 EMPLOYEE 和 CUSTOMER 的 两 个 不 同属 性 ， 而 应 该 使 用 不 
同 的 单词 ， 如 EmpName 和 CustName。 
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这 里 提 到 的 准则 都 不 是 强制 性 的 ， 并 且 会 有 例外 的 情况 。 然 而 ， 如 果 始 终 遵 守 这 些 准 
则 ， 这 样 得 到 的 ER 图 通常 会 比 不 使 用 这 些 准则 得 到 的 ER 图 更 加 清晰 易 读 。 


2.22 多 个 ER 图 


在 一 个 ER 图 中 ， 每 个 实体 总 能 通过 直接 或 间接 的 联系 连接 到 其 他 所 有 实体 。 换 句 话 
说 ， 在 每 个 ER 图 中 ,每 两 个 实体 之 间 总 会 有 一 条 路 径 。 
如 果 一 个 ER 模式 包含 不 能 互相 连接 的 实体 ， 实 际 上 ， 这 个 ER 模式 表示 了 多 个 单独 数 
据 库 的 ER 图 。 例 如 ， 图 2-36 中 ， 实 体 A、B 、C 与 实体 D、E、F、G 不 相连 。 因 此 ， 实 体 A、 
B、C 属于 一 个 ER 图 的 组 成 部 分 ， 而 实体 D 、E、 F 、G 属于 另 一 个 ER 图 的 组 成 部 分 。 





图 2-36 一 个 模式 中 包含 两 个 独立 的 ER 图 (可 能 会 产生 误导 ) 


总 的 来 说 ， 当 描述 多 个 ER 图 时 ， 每 个 图 应 该 分 开 表 示 。 不 要 采用 图 2-36 的 方式 ， 一 
个 模式 中 包含 两 个 ER 图 ， 更 好 的 选择 是 如 图 2-37 所 示 ， 单 独 呈 现 每 个 ER 图 。 这 可 消除 由 
于 没有 注意 到 模式 包含 多 个 (不 相连 的 ) ER 图 而 造成 的 混淆 。 





图 2-37 单个 模式 中 包含 单个 的 ER 
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图 2-37 ( 续 ) 


2.23 实例 : 男 一 组 数据 库 需 求 及 其 ER 图 


复习 一 下 已 经 介绍 过 的 ER 模型 的 概念 ， 请 看 图 2-38 中 另 一 个 ER 图 的 例子 。 该 例子 基 
于 以 下 需求 : 
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图 2-38” 男 一 个 ER 图 的 例子 : 房地产 公司 HAFH 的 地 产 数据 库 
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HAFH ( Home Away from Home) 房地产 公司 向 企业 客户 提供 公寓 出 租 业 务 ， HAFH 房 
地 产 公 司 地 产 数据 库 将 记录 HAFH 的 建筑 物 、 公 寓 、 企 业 客 户 、 建 筑 物 管理 员 、 清 洁 工 成 
员 和 建筑 物 检 查 员 的 信息 . 
房地产 公司 HAFH 的 地 产 数据 库 将 记录 以 下 数据 : 
@ 对 于 每 个 建筑 物 : BuildineID (唯一 ) 和 BNoOfFloors (建筑 物 内 的 楼 层 数 ) . 
e@ 对 于 每 套 公 园 : AptNo (部 分 唯一 ， 即 在 一 个 建筑 物 内 唯一 ) 和 ANoOfBedrooms ( 公 
寅 内 的 房间 数 )。 
e@ 对 于 每 个 企业 客户 : CCID (唯一 )、CCName (唯一 )、CCLocation 和 CClndustry 。 
e@ 对 于 每 个 建筑 物 管 理 员 : ManagerID (唯一 )、MFullName (由 MFName 和 MLName 
组 合 形 成) 多 个 MPhones、MBDate、MAge (由 MBDate 和 当前 日 期 生成 )、 
MSalary 和 MBonus (不 是 每 个 管理 员 都 有 奖金 )- 
@ 对 于 每 个 清洁 工 成 员 : SMemberID (唯一 ) 和 SMemberName 
@ 对 于 每 个 检查 员 : InsID (唯一 ) 和 InsName。 
@ 每 个 建筑 物 内 有 一 套 或 多 套 人 公寓。 每 套 公 寓 只 位 于 一 个 建筑 物 内 。 
e 每 套 公 寓 要 么 只 出 租 给 一 个 企业 客户 ， 要 么 没有 出 租 。 每 个 企业 客户 可 以 租用 一 套 
或 多 套 公 视 。 
e 每 个 企业 客户 可 以 推荐 许多 企业 客户 也 可 以 不 推荐 任何 企业 客户 。 每 个 企业 客户 只 
能 被 一 个 企业 客户 推荐 或 者 不 被 任何 企业 客户 推荐 ， 
@ 每 套 公 寓 由 一 个 或 两 个 清洁 工 负 责 清 理 。 每 个 清洁 工 负 责 清理 5 ~ 10 套 公寓 。 
@ 每 个 建筑 物 管 理 员 管理 一 个 或 多 个 建筑 物 ， 每 个 建筑 物 只 能 由 一 个 管理 员 管 理 。 
e@ 每 个 管理 员 只 能 住 在 一 个 建筑 物 内 . 每 个 建筑 物 内 要 么 有 一 个 管理 员 居 住 ， 要么 没 
有 管理 员 居 住 。 
® 每 个 检查 员 检 查 一 个 或 多 个 建筑 物 . 每 个 建筑 物 可 以 有 一 个 或 多 个 检查 员 。 
e@ 对 于 某 个 检查 员 检 查 的 建筑 物 ， 将 记录 该 检查 员 上 次 检查 该 建筑 物 的 日 期 以 及 下 次 
将 要 检查 的 日 期 。 


2.24 数据 库 需求 和 ER 模型 的 使 用 


ER 建 模 为 收集 、 和 构建 和 可 视 化 数据 库 需 求 提 供 了 一 种 简明 易 懂 的 技术 。 理 解 ER 建 模 
不 仅 对 基于 需求 构建 ER 模型 是 很 重要 的 ， 并且 对 需求 收集 的 过 程 本 身 也 很 重要 。 它 有 助 于 
我 们 为 建立 实体 、 属 性 和 联系 的 相关 事实 而 提出 正确 的 问题 或 找到 相应 的 答案 .。 

初学 者 第 一 次 使 用 ER 建 模 时 常 犯 的 错误 是 不 能 区 分 实体 和 ER 图 本 身 。 例 如， 考虑 下 
面 一 组 简单 的 需求 : 

@ 公司 义 记 录 其 部 门 以 及 从 属于 部 门 的 雇员 信息 。 

e 每 个 雇员 只 能 属于 一 个 部 门 ， 

e 每 个 部 门 可 以 有 多 个 雇员 ， 也 可 以 没有 雇员 - 

图 2-39 的 上 半 部 分 展示 了 一 个 基于 该 需求 的 错误 ER 图 的 例子 。 该 例 表 明 ， 将 该 公司 
描述 成 一 个 实体 是 错误 的 ， 这 样 该 实体 将 只 有 一 个 实例 (公司 X)， 这 是 不 必要 的 ， 它 会 
ER 图 本 身 变 得 复杂 相反 、 基 于 以 上 一 组 需求 的 ER 图 只 需 分 为 两 个 简单 的 实体 : 雇员 和 
部 门 ， 见 图 2-39 的 下 半 部 分 。 不 是 用 一 个 实体 表示 公司 X， 而 是 用 整个 ER 图 (两 个 实体 以 
及 它们 之 间 的 联系 ) 表示 公司 X。 
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图 2-39 ”错误 阐释 和 正确 阐释 需求 的 ER 图 


注意 ， 如 果 上 述 需 求 的 第 一 条 变 为 一 个 行业 协会 想 要 记录 其 成 员 公 司 、 部 门 以 及 雇员 ， 
这 时 图 2-39 上 半 部 分 的 图 就 是 正确 的 。 然 而， 需求 中 明确 说 明了 这 是 一 个 公司 记录 其 雇员 
和 部 门 的 数据 库 ， 因 此 ， 图 2-39 下 半 部 分 的 图 对 于 该 需求 是 正确 的 。 

为 了 进一步 说 明 这 一 点 ,考虑 图 2-40 中 的 ER 图 。 


ColiStartDate 
STUDENT 


图 2-40 包含 学 生 和 大 学 实体 的 ER 图 
图 2-40 对 于 以 下 需求 是 正确 的 : 

e@ 一 个 非 盈利 的 基金 会 记录 它 所 资助 的 奖学金 获得 者 ， 

@ 对 于 每 名 学 生 (奖学金 获得 者 )， 记 录 他 的 唯一 学 生 ID、 姓 名 以 及 他 就 读 大 学 的 入 学 









CoilLocation 


COLLEGE 


StudentlD 





日 期 。 L36 | 
@ 对 于 每 一 所 拥有 该 基金 会 资助 学 生 的 大 学 ， 基 金 会 记录 该 大 学 唯一 的 大 学 名 称 和 大 
”学 的 地 理 位 置 。 

e@ 每 一 名 奖学金 获得 者 只 能 就 读 于 一 所 大 学 。 数 据 库 中 的 每 所 大 学 至 少 有 一 名 奖学金 
获得 者 。 


注意 ， 图 2-40 中 的 ER 图 对 于 只 记录 一 所 大 学 的 数据 库 是 不 正确 的 。 在 这 种 情况 下 ， 
实体 COLLEGE 是 不 必要 的 ， 就 像 图 2-39 中 的 实体 COMPANY 一 样 。 

妨 一 个 数据 库 需 求 收集 和 ER 建 模 中 常见 的 新 手 错误 是 不 区 分 以 下 两 者 : 

e。 对 需要 被 记录 的 数据 建 模 。 

e 对 发 生 在 一 个 组 织 内 的 所 有 事情 建 模 。 

例如 ， 下 面 的 一 组 需求 就 没有 区 分 这 两 者 : 
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@ 航空 公司 义 想 记 录 航 班 、 航 班 空乘 人 员 和 乘客 信息 。 

@ 每 个 航班 配备 多 名 空乘 人 员 。 每 名 空 梯 人 员 可 以 配备 到 多 个 航班 。 

@ 每 位 乘客 可 以 乘坐 多 个 航班 。 每 个 航班 载 有 多 位 乘客 。 

e@ 每 名 空乘 人 员 可 以 为 多 位 乘客 服务 。 每 位 乘客 可 以 由 多 名 空乘 人 员 服 务 。 

图 2-41 上 半 部 分 展示 了 一 个 基于 以 上 需求 的 ER 图 。 这 些 需求 都 准确 地 表示 了 航空 公 
司 X， 但 问题 在 于 这 些 需 求 没有 考虑 到 什么 是 可 能 和 /或 有 必要 记录 的 数据 。 这 组 需求 的 前 
三 条 是 合理 的 ， 而 最 后 一 条 有 问题 。 的 确 ， 乘 客 可 以 由 多 名 空乘 人 员 服 务 ， 每 名 空乘 人 员 也 
可 为 多 位 乘客 提供 服务 。 然 而 ， 我 们 很 可 能 不 会 真 的 想 要 记录 所 有 空乘 人 员 为 乘客 提供 服务 
的 组 合 。 即 使 我 们 真 的 想 要 记录 这 些 信息 ， 也 需要 考虑 这 样 做 的 代价 和 实用 性 。 在 这 个 例 
子 中 ， 如 果 我 们 想 要 实现 一 种 机 制 以 记录 每 名 空乘 人 员 第 一 次 为 某 旅客 服务 的 信息 (如 拿 饮 
料 、 回 答 问题 等 )， 很 可 能 这 种 机 制 将 会 代价 过 高 且 没 有 意义 。 因 此 ,需求 的 最 后 一 条 应 该 
删除 ,删除 后 的 数据 库 需 求 如 下 : 

e@ 航空 公司 X 想 记 录 航 班 、 航 班 空乘 人 员 和 乘客 信息 。 

e 每 个 航班 配备 多 名 空乘 人 人员。 每 名 空乘 人 员 可 以 配备 到 多 个 航班 。 

e@ 每 位 乘客 可 以 乘坐 多 个 航班 。 每 个 航班 载 有 多 名 乘客 。 

因此 ， 应 该 如 图 2-41 的 下 半 部 分 所 示 来 构建 ER 图 。 
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图 2-41 基于 不 可 行 的 需求 与 适当 需求 的 ER 图 


2.25 各 种 ER 符号 体系 
正如 前 文 所 提 到 的 ， 现 在 没有 一 个 所 有 数据 库 工 程 都 遵守 的 且 被 普遍 接受 的 ER 符号 体 
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系 。 相 反 ， 目 前 常用 的 ER 符号 体系 有 许多 种 。 然 而 ， 如 果 设 计 者 熟悉 某 一 种 ER 符号 体系 ， 
那么 掌握 其 他 的 ER 符号 体系 则 会 很 容易 。 

图 2-42 用 三 种 不 同 的 符号 体系 说 明了 同样 的 ER 图。 图 2-42 顶部 的 图 使 用 本 书 的 符号 
体系 来 表示 ER 图 . 
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图 2-42 各 种 ER 符号 体系 的 例子 


图 2-42 中 间 的 图 使 用 了 另 一 种 符号 体系 。 在 该 符号 体系 中 ， 属 性 名 和 实体 名 放 在 同一 
个 矩形 内 ， 联 系 用 连接 实体 的 虚线 表示 ， 联 系 名 和 能 人 该 虚线 中 。 基 数 约 束 用 括号 内 的 一 对 数 
表示 ， 但 基数 约束 是 反 过 来 的 (与 本 书 所 用 的 符号 体系 相 比 )。 解 释 联 系 的 规则 是 实体 - 基 
数 约束 - 联系 - 实体。 例如， 实体 EMPLOYEE 的 每 个 实例 只 和 实体 DEPARTMENT 的 实例 
参与 到 联系 ReportsTo 中 一 次 ， 而 实体 DEPARTMENT 的 每 个 实例 可 以 和 实体 EMPLOYEE 
的 实例 0 次 或 多 次 参与 到 联系 ReportsTo 中 。 

图 2-42 底部 的 图 使 用 UML(Unified Modeling Language) 符号 体系 来 表示 同样 的 ER 图 。 
该 符号 体系 中 实体 和 联系 的 表示 方法 和 中 间 图 的 表示 方法 很 相似 ， 但 基数 约束 的 解释 方法 和 
顶部 的 图 是 一 样 的 。 如 果 最 小 基数 是 可 选 的 ， 则 用 两 个 点 分 开 的 数字 表示 ; 如 果 是 强制 的 ， 
则 只 用 一 个 数字 表示 。 

除了 这 里 已 经 列 出 来 的 ER 符号 体系 ， 还 有 许多 其 他 的 ER 符号 体系 。 幸 运 的 是 ， 它 们 
都 描述 了 同样 的 概念 : 实体 、 联 系 和 属性 。 熟 悉 这 些 概念 的 开发 者 能 很 快 适应 任何 ER 符号 
体系 。 


2.26 扩展 的 ER 模型 


扩展 的 ER 模型 (enhanced ER，EER) 是 对 ER 符号 体系 的 扩充 ， 可 以 描述 标准 ER 模 
型 之 外 的 一 些 概念 。 附 录 A 给 出 了 一 个 EER 的 简要 总 结 。 尽 管 EER 对 传统 ER 概念 的 扩展 
有 时 会 很 有 用 ,但 大 多 数 业 务 数据 库 都 可 以 使 用 本 章 介 绍 的 ER 符号 来 建 模 。 如 果 有 需要 ， 
一 个 有 经 验 的 ER 建 模 者 能 够 很 容易 地 学 习 和 空 用 EER 扩展 。 
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本 章 涵盖 了 数据 库 需 求 和 ER 建 模 的 大 部 分 基本 问题 。 下 面 几 节 是 与 ER 建 模 有 关 的 几 
个 额外 问题 。 


2.27 ”问题 说 明 : 相同 实体 之 间 县 有 多 个 实例 的 M : N 联系 


在 某 些 情况 下 ，M : N 联系 可 以 在 相关 实体 的 相同 实例 之 间 多 次 出 现 。 下 面 的 例子 说 
明了 这 种 情况 。 观 察 以 下 需求 ; 

@ 数据 库 将 记录 学 生 和 课程 信息 。 

@ 对 于 每 名 学 生 ， 将 记录 他 的 唯一 学 生 ID 和 姓名 。 

@ 对 于 每 门 课程 ， 将 记录 唯一 的 课程 ID 和 课程 等 级 。 

@ 数据 库 中 的 每 名 学 生 可 以 选修 多 门 课程 ， 也 可 以 不 选修 任何 课程 。 

@ 数据 库 中 的 每 门 课 程 至 少 要 被 一 名 学 生 选 修 。 

@ 对 于 每 个 选修 某 一 门 课 程 的 学 生 实 例 ， 将 记录 该 学 生 本 门 课程 的 成 绩 和 学 期 。 

图 2-43 展示 了 一 个 基于 这 些 需 求 的 ER 图 。 





Semester 9 


StugentNamd) 


STUDENT 





Completes 





图 2-43 ”一 个 描述 学 生 完 成 课程 的 M : N 联系 的 ER 图 
图 2-44 展示 了 图 2-43 中 联系 的 几 个 可 能 的 实例 。 
联系 实例 (对 于 联系 Completes) 





实体 STUDENT 的 实例 实体 CLASS 的 实例 
图 2-44 图 2-43 中 M : N 联系 的 实例 


如 果 我 们 在 上 面 的 需求 中 增加 一 条 很 小 但 很 重要 的 需求 ， 这 将 会 彻底 改变 M : N 联系 


的 性 质 : 
® 一 名 学 生 可 以 多 次 选修 同一 门 课程 (例如 ， 如 果 一 名 学 生 该 课程 的 成 绩 低 于 最 低 成 绩 
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要 求 ， 他 需要 重 选 该 课程 ， 直 到 达到 和 最低 成 绩 要 求 )。 
这 条 增加 的 需求 ， 可 多 连 实体 的 相同 实例 之 间 的 联系 具有 多 个 联系 实例 ， 如 图 2-45 所 





示 ，Pat 选修 了 课程 IS101 三 次 . [ 40 ] 
联系 实例 (对 于 联系 Compietes ) 
Robin 、\ A 
\ 一 IS101 
pat 1 
IS241 
]arnl 
I - 1S247 
Zach ey 
/ 二 瑚 
SA 区 区 
四 
实体 STUDENT 的 实例 实体 CLASS 的 实例 


图 2-45 ”针对 新 增 需 求 的 M : N 联系 Completes 的 实例 


这 种 扩展 的 需求 不 能 用 一 个 M : N 联系 描述 。 如 图 2-46 所 示 ， 我 们 将 使 用 有 两 个 主 实 
体 的 弱 实 体 。 


ErdentNam C cosa ) CE 
< > (| compLETION |D CLASS 


Grade 
图 2-46 一 个 M : N 联系 表示 为 一 个 弦 实 体 的 ER 图 


我 们 使 用 弱 实 体 的 原因 是 使 属性 Semester 成 为 一 个 部 分 标识 符 。 这 样 ， 即 使 某 学 生 多 
次 选修 一 门 课程 的 成 绩 相同 ， 也 能 通过 属性 Semester 区 分 同一 学 生 多 次 选修 的 同一 门 课程 。 [4 
例如 ， 假 设 一 个 学 生 多 次 选择 一 门 课程 ， 每 次 的 成 绩 都 是 D， 最 终 ， 他 重 选 该 课程 并 且 以 成 
绩 C 通过 了 该 课程 。 

当 使 用 弱 实 体 表 示 一 个 M : N 联系 时 ， 弱 实体 的 基数 约束 总 是 强制 为 1，M : N 联 
系 的 基数 约束 被 转移 到 相应 的 非 弱 实体 上 上。 考虑 图 2-43 和 图 2-46。 在 图 2-43 中 ， 联 系 
STUDENT Completes CLASS 与 图 2-46 中 的 联系 STUDENT Achieves COMPLETION 相对 
应 ， 它 们 都 是 可 选 的 最 大 基数 为 多 个 的 联系 。 同 样 ， 图 2-43 中 的 联系 CLASS Completed by 
STUDENT 与 图 2-46 中 的 联系 CLASS Contains COMPLETION 相对 应 ， 它 们 都 是 强制 性 的 
最 大 基数 为 多 个 的 联系 。 

图 2-47 展示 了 另外 一 个 相同 实体 的 多 个 实例 之 间 具 有 M : N 联系 的 例子 ， 使 用 弱 实体 
表示 该 联系 。 这 个 例子 的 需求 如 下 : 

e@ 一 个 汽车 出 租 公 司 想 要 记录 它 的 车 辆 和 租用 车 辆 的 顾客 信息 
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@ 对 于 每 位 顾客 ,将 记录 他 的 唯一 ID 和 姓名 。 

e 对 于 每 辆 汽车 ， 将 记录 它 的 唯一 的 VIN 和 品牌 。 

e 一 位 顾客 可 以 租用 多 辆 汽车 ， 但 至 少 要 租用 一 辆 。 一 辆 汽车 可 以 被 许多 顾客 租用 ， 
昌 是 也 会 有 车 辆 从 未 被 租用 过 。 

® 每 次 一 位 顾客 租用 一 辆 汽车 ， 将 记录 租车 日 期 、 租 用 时 间 和 租用 一 天 的 价格 。 
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图 2-47 男 一 个 M : N 联系 表示 为 弱 实 体 的 例子 


注意 ， 如 果 我 们 增加 一 条 很 小 但 很 重要 的 需求 ; 
@ 每 当 一 位 顾客 租用 一 辆 汽车 时 ， 这 次 出 租 都 会 有 一 个 唯一 的 出 租 ID。 
那么 得 到 的 ER 图 应 该 如 图 2-48 所 示 - 


a 
\ CustID CustName 
NS 
CUSTOMER CAR 


(DateOfRental 





< RentedVia 
LengthoOfRental 


A |、 


DateOfRental RENTAL PricePperDay 
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图 2-48 一 个 普通 实体 ， 而 不 是 将 M : N 联系 表示 成 一 个 弱 实 体 
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既然 每 次 出 租 都 有 一 个 唯一 属性 ， 那 么 我 们 就 不 必用 弱 实 体 表示 出 租 ， 而 是 用 一 个 普通 
实体 来 表示 它 。 

正如 图 2-48 的 例子 所 展示 的 ， 在 需求 中 为 一 个 M : N 联系 (尤其 是 具有 多 个 属性 的 
M : N 联系 ) 增加 一 个 唯一 标识 属性 ， 将 会 把 这 个 M : N 联系 转换 成 一 个 普通 实体 。 采 用 
这 种 方式 来 简化 ER 图 以 及 后 续 的 结果 数据 库 是 一 种 很 常用 的 技术 。 


2.28 问题 说 明 : 关联 实体 

关联 实体 (associated entity) 是 一 种 概念 ， 是 用 于 描述 M : N 联系 的 替代 方式 之 一 。 关 
联 实 体 用 一 个 内 部 有 菱形 的 和 矩形 来 表示 。 关 联 实体 没有 唯一 或 部 分 唯一 的 属性 ， 且 通 名 没 有 
任何 属性 。 

图 2-49 展示 了 一 个 M : N 联系 以 及 其 用 关联 实体 替代 的 形式 。 在 图 2-49 中 ,， 上、 下 
两 图 是 相互 等 价 的 ， 且 是 根据 完全 相同 的 需求 来 设计 的 。 只 要 联系 AssignedtTo 没有 属性 ， 
则 这 个 相应 的 关联 实体 ASSIGNMENT 也 没有 属性 。 


Q PROJECT 









图 2-49 ”两 个 等 价 的 联系 ， 既 可 以 表示 成 M : N 联系 也 可 以 表示 成 关联 实体 


在 图 2-49 的 上 图 中 ， 实 体 EMPLOYEE 是 可 选择 性 参与 到 联系 AssignedTo 中 的 。 相 
应 地 ， 在 图 2-49 下 图 所 示 与 其 等 价 的 关联 实体 ASSIGNMENT 中 ， 实 体 EMPLOYEE 也 
是 可 选择 性 参与 到 联系 Includes 中 的 。 另 一 方面 ， 在 图 2-49 上 图 中 ， 实 体 PROJECT 是 
强制 参与 到 联系 AssignedTo 中 的 。 相 应 地 ， 在 图 2-49 下 图 所 示 与 其 等 价 的 关联 实体 
ASSIGNMENT 中 ， 实 体 PROJECT 也 是 强制 参与 到 联系 IsFor 中 的 。 同 时 需要 注意 的 是 ， 
关联 实体 自身 的 基数 约束 在 两 种 联系 中 都 是 强制 唯一 的 (一 般 来 说 这 是 关联 实体 的 问题 )。 

图 2-50 展示 了 一 个 一 元 M : N 联系 以 及 其 用 关联 实体 表示 的 替代 形式 。 在 图 2-50 中 ， 
上 、 下 两 图 是 相互 等 价 的 ， 且 是 根据 完全 相同 的 需求 设计 的 。 

图 2-51 展示 的 是 带 一 个 属性 的 M : N 联 系 以 及 其 用 关联 实体 表示 的 蔡 代 形式 。 在 
图 2-51 中 ， 上 、 下 两 图 是 相互 等 价 的 ， 且 是 根据 完全 相同 的 需求 设计 的 。 在 上 图 中 ， 只 要 
联系 SoldVia 有 一 个 属性 NoOfitems， 则 在 相应 的 下 图 中 ， 其 等 价 的 关联 实体 LINEITEM 同 
样 有 一 个 属性 NoOfItems。 每 一 次 销售 事务 可 以 包含 多 个 不 同 数量 的 产品 ， 如 上 图 所 示 . 因 
此 ， 在 下 图 中 ， 每 一 次 销售 事务 可 以 有 多 个 项 目 行 ， 每 一 个 项 目 行 代 表 在 一 次 销售 事务 中 销 
售 了 某 种 产品 及 其 销售 数量 。 
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图 2-50 ”两 个 等 价 的 联系 ， 既 可 以 表示 成 一 元 M : N 联系 也 可 以 表示 成 关联 实体 
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图 2-51 


两 个 等 价 的 联系 ， 既 可 以 表示 成 有 一 个 属性 的 M : N 联系 也 可 以 表示 成 关联 实体 


关联 实体 并 不 是 描述 二 元 或 一 元 联系 的 必需 结构 。 正 如 上 面 的 例子 所 展示 的 那样 ， 对 于 
二 元 或 一 元 联系 而 言 ， 关 联 实 体 仅仅 是 男 一 种 描述 联系 的 方式 。 若 不 用 关联 实体 ， 同 样 可 以 
很 容易 地 描述 这 种 联系 。 但 正如 下 一 小 节 所 述 ， 对 那些 度 大 于 2 的 联系 (如 三 元 联系 ) 而 言 ， 
关联 实体 则 提供 了 一 种 消除 ER 图 中 潜在 歧义 的 方法 。 


2.29 


问题 说 明 : 三 元 (及 更 高 阶 ) 联系 


一 个 度 为 3 的 联系 ， 包含 3 个 实体 ， 也 称 为 三 元 联系 (ternary relationship )。 本 书 将 利 


用 下 面 的 例子 来 展示 三 元 联系 。 
MG (Manufacturing Guru) 公司 想 要 记录 它 的 供应 商 、 零 部 件 和 产品 。 
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特别 地 ，MG 公司 想 要 记录 哪 家 供应 商 提供 了 哪些 零 部 件 给 哪 类 产品 。 在 需求 收集 的 过 
程 中 ，MG 提供 了 下 列 具 体 需求 : 

e 我 公司 有 多 类 产品 。 

® 我 公司 有 多 家 供应 商 。 

e 我 公司 有 多 类 零 部 件 。 

e@ 我 公司 想 要 记录 哪 家 供应 商 提供 了 哪些 零 部 件 给 哪 类 产品 。 

e@ 每 类 产品 包含 一 个 或 多 个 零 部 件 ， 每 一 零 部 件 有 一 家 或 多 家 供应 商 供应 。 

e@ 每 一 家 供应 商 可 以 提供 多 种 零 部 件 给 多 类 产品 ， 但 是 也 可 不 提供 任何 零 部 件 给 任何 

产品 。 

e@ 每 一 类 零 部 件 可 以 被 一 家 或 多 家 供应 商 提供 给 一 类 或 多 类 产品 。 

简单 地 在 这 三 个 实体 之 间 创 建 三 个 二 元 联系 并 不 能 完整 地 描述 以 上 需求 。 图 2-52 展示 
了 三 个 联系 ,分 别 表示 : 哪 类 产品 与 哪些 供应 商 有 关联 ， 哪 家 供应 商 与 哪些 零 部 件 有 关联 ， 
哪 种 零 部 件 与 哪些 产品 有 关联 (为 简单 起 见 ， 这 部 分 中 所 有 实体 都 没有 市 属性 )。 但 是 ， 基 
于 图 2-52 创建 的 数据 库 并 不 能 记录 哪 家 供应 商 提供 了 哪些 零 部 件 给 哪 类 产品 。 
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COMPONENT 
图 2-52 ”三 个 二 元 联系 不 足以 描述 MG 公司 的 需求 


比如 ， 基 于 图 2-52 创建 的 数据 库 ， 我 们 可 以 描述 供应 商 Al 和 A2 是 零 部 件 B 的 供应 
方 ， 同 时 ， 零 部 件 B 是 产品 C 的 零 部 件 之 一 。 但 是 ， 假 设 供应 商 Al 为 产品 C 供应 零 部 件 
B， 供 应 商 A2 没有 为 产品 C 供应 零 部 件 B( 即 供 
应 商 A2 供应 零 部 件 B， 但 是 不 为 产品 C 提供 零 
部 件 B)， 则 以 图 2-52 为 基础 建立 的 数据 库 就 不 能 
描述 这 样 一 个 场景 。 

为 了 涵盖 所 有 可 能 的 合理 应 用 场景 ， 所 有 三 
个 实体 都 必须 统一 集中 于 一 种 联系 ， 这 样 就 得 到 
了 一 个 三 元 联系 。 

三 元 联系 的 一 个 棘手 问题 是 在 某 一 种 三 元 
联系 中 ， 不 能 明确 地 表示 基数 限制 。 图 2-53 中 
展示 了 一 种 包含 实体 SUPPLIER、PRODUCT 和 图 2-53 一 个 三 元 联系 









PRODUCT 


SUPPLIER 





COMPONENT 
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COMPONENT 的 三 元 联系 Provides， 图 中 没有 给 出 基数 限制 的 原因 是 无 法 训 无 虐 义 地 标明 
基数 限制 。 

在 图 2-53 中 ， 对 那些 没有 为 任何 产品 提供 任何 零 部 件 的 供应 商 ， 图 中 并 没有 清楚 表示 
我 们 可 以 在 什么 地 方 放 置 记 录 这 些 供 应 商 的 符号 。 若 只 是 在 联系 的 零 部 件 一 侧 设置 一 个 可 选 
符号 ， 这 样 虽然 简洁 但 依然 存在 歧义 : 究竟 是 希望 记录 那些 不 为 任何 产品 提供 任何 零 部 件 的 
供应 商 ， 还 是 希望 记录 那些 没有 任何 供应 商 为 其 提供 任何 零 部 件 的 产品 。 

换 名 话说， 这 种 表示 方式 根本 不 能 清楚 地 描述 一 个 联系 的 基数 。 但 是 ， 如 图 2-54 所 示 ， 


如 果 用 关联 实体 来 替代 的 话 ， 就 可 以 清楚 地 描述 三 元 联系 的 所 有 可 能 的 基数 限制 了 。 
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图 2-54 通过 关联 实体 建立 的 三 元 联系 


注意 ， 图 2-54 描述 了 哪 家 供应 商 为 哪 类 产品 提供 了 哪些 零 部 件 。 如 果 我 们 要 为 供应 商 
记录 下 产品 零 部 件 的 实际 交付 量 ， 则 需要 增加 额外 的 属性 ， 如 数量 。 但 是 ， 在 图 2-54 所 示 
的 关联 实体 中 仅 简 单 地 为 供应 商 增加 数量 (quantity) 这 一 属性 也 无 法 解决 上 述 问题 ， 因 为 同 
一 家 供应 商 可 以 不 止 一 次 地 为 同一 产品 提供 同等 数量 的 同一 零 部 件 。 如 果 只 增加 数量 这 个 属 
性 ， 就 没有 办 法 唯一 区 分 同一 家 供应 商 为 同一 产品 提供 等 数量 的 同一 零 部 件 的 不 同 实例 。 对 
这 一 情况 的 解决 办 法 之 一 是 创建 男 一 属性 作为 一 个 唯一 交付 标识 。 如 果 给 这 些 需 求 增 加 一 项 
规定 ， 对 于 每 一 供应 商 为 某 一 特定 产品 供应 特定 零 部 件 ， 都 认为 是 一 个 单独 的 个 体 交 付 并 且 
有 上 自己 独特 的 交付 标识 ， 这 样 一 来 ， 就 不 需要 用 关联 实体 来 表示 了 ， 而 是 可 以 用 图 2-55 所 
示 的 常规 实体 来 表示 。 

三 元 联系 中 还 需要 注意 的 是 ， 除 了 少数 例外 情况 ， 三 元 联系 适用 于 绝 大 多 数 像 多 对 多 
对 多 (many-to-many-to-many) 这 样 的 联系 。 图 2-56 展示 了 一 个 多 对 多 对 一 (many-to-many- 
one) 的 三 元 联系 。 
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图 2-55 ”普通 实体 代替 三 元 联系 
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图 2-56 一 个 多 对 多 对 一 的 三 元 联系 


图 2-56 表示 每 一 零 部 件 都 是 由 某 一 家 供应 商 专门 为 某 一 产品 供应 的 。 因 此 ， 此 图 可 以 
简化 成 如 图 2-57， 从 而 消除 了 转化 成 三 元 关系 的 必要 性 。 
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图 2-57 一 个 被 消除 了 的 多 对 多 对 一 的 三 元 联系 


但 是 ， 值 得 注意 的 是 ， 硅 想 记 录 实 际 的 各 种 交易 及 其 数量 ,还 是 不 得 不 使 用 图 2-55， 除 
韭 联 系 IsIncluded 是 1 : 1 的 。 

在 实际 中 ， 三 元 联系 比较 少见 ， 度 大 于 3 的 联系 更 为 少见 。 在 多 数 情 况 下 ， 当 设计 者 试 
图 创建 度 大 于 2 的 联系 时 ， 往 往 会 尝试 创建 额外 的 实体 而 非 联系 。 


总 结 


表 2-1 总 结 了 本 章 介绍 的 基本 ER 模型 概念 。 
表 2-1 基本 ER 模型 概念 总 结 
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概念 图 形 表 示 
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带 有 属性 的 实体 
注 每 个 实体 必须 至 少 有 一 个 唯一 Cue) (Gunouted) 
属性 


在 一 个 实体 内 ， 每 个 属性 名 不 同 
在 一 个 ER 图 内 ， 每 个 实体 名 不 同 
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联系 的 度 : 1 (涉及 一 个 实体 ) 


二 元 联系 
联系 的 度 : 2 (涉及 两 个 实体 ) 


三 元 联系 

联系 的 度 : 3 (涉及 三 个 实体 ) 

注 : 多 用 作 多 对 多 对 多 联系 

三 元 联系 很 少见 ( 度 高 于 3 的 联系 更 
人 少见) 


弱 实 体 
(1 : M 或 1 : 1) 关联 起 来 


如 果 标 识 性 联系 是 1 : M 的 ,那么 弱 
实体 必须 有 一 个 部 分 唯一 的 属性 





关联 实体 
注 : 描述 M : N 联系 的 男 一 种 方法 ， 
特别 适用 于 描述 三 元 联系 


关键 术语 


associative entity (关联 实体 )，43 

attribute (of an entity) ( (实体 的 ) 属性 )，14 
binary relationship (二 元 联系 )，28 
candidate key (候选 码 )，24 

cardinality constraint (基数 约束 )，15 
composite attribute (复合 属性 )，22 
composite unique attribute (复合 的 唯一 属性 )， 
database requirement (数据 库 需 求 )，13 
degree of a relationship ( 联系 的 度 )，28 
derived attribute (派生 属性 )，25 

enhanced ER (EER， 扩 展 的 ER)，40 
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entity (实体 )，13 

entity instance/ entity member (实体 实例 /实体 
成 员 )，14 

entity-relationship/ER modeling (实体 -联系 建 
模 /ER 建 模 )，13 

ER diagram (ERD，, ER 图 )，13 

exact minimum cardinality and/or maximum 
cardinality (最 小 基数 和 /或 最 大 基数 确切 
值 )，27 

identifying relationship( 标 识 性 联系 )，30 

N relationship ( 多 










AttributeC 


















many-to-many relationship/M : 
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对 多 联系 )，17 partial key (部 分 但 )，31 
maximum cardinality (最 大 基数 )，15 relationship (联系 )、13 
minimum cardinality/participation (最 小 基数 / 参 relationship attribute ( 联系 属性 )，19 

Ss relationship instance (联系 实例 )，18 
multivalued attribute (多 值 属性 )，25 relationship role (联系 的 角色 )，29 
one-to-many relationship/1 : M relationship ( 一 ternary relationship (三 元 联系 )，45 

对 多 联系 )，17 unary relationship/recursive relationship (一 元 联 
one-to-one relationship/1 : 1 relationship (一 对 系 /递归 联系 )，28 

一 联系 )，17 unique attribute (唯一 属性 )，14 
optional attribute ( 可 选 属性 )，26 weak entity ( 能 实体 )，30 


owner entity ( 主 实体 )，30 


复习 题 


Q2 .1 
Q2 .2 
Q2.3 
Q2.4 
Q2.5 
Q2.6 
Q2.7 
Q2.8 
Q2.9 
Q2.10 
Q2.11 
Q2.12 
Q2.13 
Q2.14 
Q2.15 
Q2.16 
Q2.17 


练习 


E21 


ER 建 模 的 目的 是 什么 ? 

ER 模型 的 基础 结构 是 什么 ? 

唯一 属性 是 什么 ? 

基数 限制 的 定义 是 什么 ? 

四 种 可 能 的 基数 限制 是 什么 ? 

三 种 基数 的 类 型 是 什么 (最 大 基数 侧 ) ? 
复合 属性 是 什么 ? 

候选 码 是 什么 ? 

多 值 属性 是 什么 ? 

派生 属性 是 什么 ? 

可 选 属性 是 什么 ? 

最 小 基数 和 最 大 基数 确切 值 限 制 在 联系 里 是 如 何 定义 的 ? 
二 元 联系 是 什么 ? 

一 元 联系 是 什么 ? 

弱 实 体 是 什么 ? 

关联 实体 是 什么 ? 

三 允 联 系 是 付 芭 ? 


建立 一 个 有 多 个 属性 的 实体 实例 。 
为 一 个 有 两 个 实体 (都 包含 多 个 属性 ) 的 应 用 场景 创建 需求 和 ER 图 ， 需 要 包含 以 下 联系 : 


E2.2 
E2.2a 1 : M 联系 ,参与 要 求 是 在 1 这 方 是 强制 性 的 而 在 M 这 方 是 可 选择 的 参与 。 
E2.2b 1 : M 联系 ,参与 要 求 是 在 1 这 方 是 可 选择 的 而 在 M 这 方 是 强制 性 的 参与 。 
E2.2c 1 : M 联系 ,参与 要 求 是 在 两 方 都 是 强制 性 的 参与 。 

E2.2d 1 : M 联系 ,参与 要 求 是 在 两 方 都 是 可 选择 的 参与 。 
E2.2e M : N 联系 ， 参 与 要 求 是 在 一 方 是 强制 性 的 而 在 另 一 方 是 可 选择 的 参与 。 
E2.2f M : N 联系 ,参与 要 求 是 在 两 方 都 是 强制 性 的 参与 。 
E2.2g M : N 联系 .参与 要 求 是 在 两 方 都 是 可 选择 的 参与 。 
E2.2h 1 : 1 联系 ,参与 要 求 是 在 一 方 是 强制 性 的 而 在 另 一 方 是 可 选择 的 参与 。 
E2.2i1 1 : 1 联系 ,参与 要 求 是 在 两 方 都 是 强制 性 的 参与 。 
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E2.2j 1 ;| 了 典 系 ， 参 与 要 求 是 在 两 方 都 是 可 选择 的 参与 
E2.3 为 一 个 有 两 个 入 全 (3 部 亿 含 多 个 属性 ) 的 应 用 场景 创建 需求 和 ER 图 、 要 求 归 有 联系 属性 购 多 对 


E2.4 创建 一 个 有 复兴 属性 的 实体 实例 
E2.5 创建 ~- -个 有 复合 叭 一 赂 性 的 a 人 实例 
6 创建 一 个 有 候选 码 (多 个 叭 -一 辐 性 ) 的 实体 实 阅 
E2.7 创建 一 个 育 多 信和 属性 的 实体 实例 ， 
8 创建 一 个 有 派生 属性 的 体 实 例 . 
E2.9 ”创建 一 个 有 可 和 议 属 性 的 实体 实 WE: 
E2.10 为 一 个 有 两 个 实体 (部 包含 多 个 属性 ) 的 应 用 场景 创建 需求 和 ER 图 ， 要 求 两 个 实体 包含 在 一 
个 有 确切 的 最 小 和 最 大 基数 国 Ee 系 里 - 
E21 为 三 个 区 舍 汪 a 系 的 实体 的 应 用 场景 创建 知 求 机 带 多 个 属性 的 ER 图 . 
E2.12 ”为 一 个 包 人 请 两 个 实体 ( 均 包 含 多 个 属性 ) 的 应 用 场景 创建 需求 和 ER 图 ， 两 个 实体 是 两 个 独立 
的 联系 . 
E2.13 为 一 个 有 次 个 实体 (都 包 仿 多 Dw 的 应 用 场景 志 建 需求 和 ER 图 ， 要 求 在 某 -- 确 定 联系 中 


案例 1 Investco Scout 
Investco Scout 是 - -之 投 宽 研究 公司 、 试 为 其 资金 数据 库 建立 ER 图 ， 和 需求 如 下 : 
e Investco Scout 资金 禾 据 壬 需 受 记录 投资 公司 、 其 营 理 的 共同 资金 及 包含 在 共同 资金 中 的 证 券 。 
@ 对 于 沽 一 家 投资 公司 ，Invcstco Scout 不 公会 江 流 唯一 的 扳 资 公 司 标 识 符 和 唯一 的 投资 公司 名 
标 ， 而 且 会 记录 这 家 公司 在 不 同好 区 的 名 字 
8@ 对 于 每 一 项 共同 资金 、Investce Scout 不 仅 会 记录 共同 资 全 的 唯一 诗 识 符 ， 而 用 会 记录 共同 资 
爹 的 名 称 及 其 成 立 日 期 
@ 对 于 每 一 种 证 券 ，lnvestco Scout 不 仅 会 记录 一 个 唯一 的 证 券 标识 符 ， 还 会 记录 证 券 的 名 字 和 
它 的 类 型 
e 投资 公司 可 以 管理 多 种 共同 资金 。 Jnvestco Scout 不 会 记录 没有 管理 任何 共同 资金 的 投资 公司 . 
同时 ， 一 项 共同 资金 是 由 一 家 投资 公司 管理 的 : 
9 一 项 共同 资金 可 以 包含 一 种 或 多 种 证 美 、 一 种 证 券 可 以 被 多 项 共同 资金 包含. Investeco Scout 
会 记录 没有 被 任何 共同 资金 包含 的 证 券 . 
e@ 对 于 每 一 个 包含 在 共同 资金 里 的 证 券 实 例 ，Investco Scout 会 记录 其 被 所 仿 的 教 量 . 
小 案例 2 Funky Bizz 
Funky Bizz 提供 租赁 服务 ， 主 要 是 租赁 乐器 给 乐队 。 试 为 Funky Bizz 的 运营 数据 库 创建 一 个 ER 
图 ， 满 足以 下 需求 ; 
@ Funky Bizz 的 交 tp ne 器 、 乐 队 、 维 修 技 术 人 员 以 及 演出 - 
e 对 于 每 一 件 乐 器 ，Funky Bizz 需要 记录 唯一 的 乐器 序列 号 、 乐 器 型 号 、 品 牌 、 乐 器 制造 年 份 以 
及 乐器 目前 的 奉命 ( 以 年 计数 )。 
e Funky Bizz 的 客户 是 乐队 - 对 于 每 支 乐队 ，Funky Bizz 不 仅 需 要 记录 乐队 的 名 宇和 唯一 的 乐队 
标识 符 ， 而 且 要 记录 乐队 地 址 、 队 员 姓 名 及 备 种 电话 号 码 。 
@ 维修 技术 人 员 有 负责 维护 这 些 示 器 . 对 于 每 一 位 技师 ， 需 要 记录 一 个 唯一 的 SSN 以 及 姓名 、 地 
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址 、 电 话 号 码 

e Funky Bizz 也 要 记录 客户 乐队 的 演出 信息 对 于 每 一 场 演出 ， 需 要 记录 由 演出 场地 和 日 期 组 成 
的 唯一 标识 符 ， 还 要 记录 演出 的 类 型 和 名 字 (一 场 演 出 可 以 有 名 字 也 可 以 没有 )。 

@ 一 支 乐 队 可 以 不 租借 任何 乐器 ， 也 可 能 租借 30 件 朱 器 ， 一 件 乐 器 可 以 被 一 支 乐 队 租 借 或 者 不 
被 租借 - 

@ 一 名 维修 技术 人 员 可 以 维护 许多 乐器 或 者 不 准 护 任何 乐器 ; 同样 ， 一 件 乐 器 可 以 被 多 名 技师 维 
护 或 者 没有 被 任何 技师 维护 

@ 一 支 乐队 可 以 在 很 多 场 演 出 中 表演 ， 但 不 必 在 每 一 场 演 出 中 都 有 表演 。 每 一 场 演出 至 少 有 一 支 
乐队 表演 ， 但 通常 会 有 多 支 乐队 . 

@ 对 于 每 一 支 乐队 ，Funky Bizz 记录 每 一 支 乐 队 的 表演 次 数 ， 

小 案例 3 Snooty Fashions 

Snooty Fashions 提供 独家 定制 的 时 装 设计 服务 ， 试 为 Snooty Fashions 的 运营 数据 库 创 建 ER 图 ， 

满足 以 下 需求 : 

@ 对 于 每 一 位 设计 师 : 有 唯一 的 设计 师 标 识 符 和 SSN， 还 要 包含 其 姓名 (全 名 )， 

@ 对 于 每 一 位 顾客 : 有 唯一 的 顾客 标识 符 、 姓 名 和 各 种 电话 号 。 

@ 对 于 每 一 位 裁缝 技师 : 有 唯一 的 SSN、 姓 名 (全 名 )， 

e@ 对 于 每 一 套 搭 配 好 的 服饰 : 有 唯一 的 标识 符 、 完 成 日 期 和 价格 

e@ 对 于 每 一 场 时 装 表 演 : 有 唯一 的 标识 符 、 日 期 和 地 点 。 

@ 一 位 设计 师 可 以 设计 很 多 套 服 饰 ， 但 每 套 服饰 只 有 一 位 设计 师 ， 

e@ 一 套 服饰 售 ( 预 售 ) 给 一 位 顾客 。 顾 客 可 以 买 一 套 或 多 套 服饰 、( Snooty Fashions 不 会 记录 没 
有 购买 任何 服饰 的 顾客 )。 

@ 每 位 裁缝 技师 需要 至 少 给 一 套 服饰 做 剪裁 ， 也 可 以 为 多 套 服 饰 做 剪裁 . 每 一 套 服 饰 有 至 少 一 位 
裁缝 技师 为 其 剪 载 ， 也 可 以 有 多 位 - 

e@ Snooty Fashions 会 记录 每 位 裁缝 技师 为 某 一 套 服饰 剪裁 的 开始 时 间 。 

@ 每 位 设计 师 可 以 参加 很 多 场 的 时 装 表 演 ， 也 可 以 不 参加 任何 一 场 时 装 表演 。 每 场 时 装 表演 
可 以 以 一 位 或 两 位 Snooty Fashions 设计 师 为 主角 (Snooty Fashions 不 会 记录 没有 以 Snooty 
Fashions 设计 师 为 主角 的 时 装 表 演 )。 

小 案例 4 Signum Libri 

Signum Libri (SL) 是 一 家 出 版 公司 ， 试 为 SL 运营 数据 库 创建 ER 图 ， 满 足下 列 需求 . 

e@ 对 于 每 一 本 由 SL 出 版 的 书 : 有 书 名 、 流 派 类 型 、 出 版 日 期 、 页 数 . 

@ 对 于 每 一 位 作者 : 有 唯一 的 作者 标识 符 及 作者 姓名 

@ 对 于 每 一 家 代理 商 : 有 唯一 的 代理 商标 识 符 及 其 姓名 . 

e 对 于 每 一 位 编辑 : 有 唯一 的 编辑 标识 符 及 其 姓名 ， 

@ 每 本 书 由 一 位 作者 扔 写 ， 一 位 作者 可 以 撰写 多 本 书 。SL 不 会 记录 没有 为 SL 写 书 的 作者 。 同 
一 作者 写 的 不 同 的 书 有 不 同 的 书 名 。 但 是， 不 同 的 作者 可 以 写 书 名 相同 的 两 本 不 同 的 书 。 

e@ 每 位 作者 由 一 家 代理 商 代理 。 每 家 代理 商 至 少 代 理 一 位 作者 ， 也 可 以 代理 多 位 作者 。 

e@ 一 本 书 有 一 位 编辑 。 一 位 编辑 至 少 负 责编 辑 一 本 书 ， 也 可 以 是 多 本 。 

。 每 位 编辑 可 以 指导 一 位 或 多 位 编辑 ， 但 是 不 可 以 指导 任意 一 位 编辑 。 每 位 编辑 可 以 至 多 有 一 位 
导师 编辑 ， 但 也 可 以 没有 。 

小 案例 5 ExoProtect 
ExoProtect 是 一 家 保险 公司 。 试 写 出 如 图 2-58 所 示 ExoProtect 员工 电脑 数据 库 ER 图 的 所 有 需求 。 


On 
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SOFTWARE S() 
PACKAGE I/ 
LA 
E22 







个 、 
DateO tall 

EMPLOYEE 
InstalledAt 


ELAN 


IsAssignedTo 
COMPUTER 和 


小 案例 6 Jone Dozers 


Jone Dozers 是 一 家 建筑 设备 公司 。 试 写 出 如 图 2-59 所 示 Jone Dozers 的 销售 和 租赁 数据 库 ER 图 
的 所 有 需求 。 


LastinspectDate 
DateMade C oae ) 
(Cserene ) Coatemaae) Cre ) RentTransiD 


(KI RENTAL FX SRepLName SRepFName 
SN 


(SRrepName) 


SRepID 
SALES REP 
ST7 
2 


E> 
{0,3) (0,1) 





CompModel 


图 2-58 ”ExoProtect 员工 电脑 数据 库 ER 图 
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图 2-59 ”Jone Dozers 的 销售 和 租赁 数据 库 ER 图 


小 案例 7 Midtown Memorial 
> Midtown Memorial 是 一 家 医院 。 试 写 出 如 图 2-60 所 示 Midtown Memorial 医院 的 病人 药品 分 发 数 
55 据 库 ER 图 的 所 有 需求 。 
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Drug To Take | 
Drug Not Allowed with 


J 
-A “NN 
NM 


' PatientAge ， 


AN 
DRUGINTAKE 
CO PATIENT | EvENT 六 人 Se 
(PatientName) 
DIENumber 
DIEDate 
CC》 


图 2-60 Midtown Memorial 医院 的 病人 药品 分 发 数据 库 ER 图 
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| Database Svstems: Introduction to Datahases and Data Warehouses 


3.1 引言 

在 第 1 章 中 我 们 曾 用 “逻辑 数据 库 模型 ”这 一 术语 来 特 指 DBMS 软件 所 采用 的 数据 库 
模型 。 其 中 最 常用 的 逻辑 数据 库 模型 是 关系 数据 库 模型 。 采 用 关系 数据 库 模 型 建 模 的 数据 库 
称 作 关系 数据 库 。 

在 创建 关系 数据 库 的 过 程 中 ,一 旦 数据 库 的 需求 以 ER 图 的 形式 被 收集 并 可 视 化 ， 接 下 
来 的 工作 就 是 将 ER 图 转化 为 一 个 逻辑 数据 库 模 型 ， 即 关系 模式 ( relational schema)。 关 系 
模式 是 对 关系 数据 库 模 型 进行 可 视 化 摘 述 的 关系 图 表 。 

目前 大 多 数 商 业 DBMS 软件 包 ， 比 如 Oracle、MySQL、Microsoft SQL server、Postgre- 
SQL 、Teradata 、IBM DB2 以 及 Microsoft Access， 都 是 关系 数据 库 管 理 系 统 (relational 
DBMS，RDBMS ) 软件 包 . 它们 都 采用 关系 数据 库 模型 并 用 于 实现 关系 型 数据 库 。 

在 本 章 中 ， 我 们 将 讲述 关系 数据 库 模 型 的 基本 概念 ， 以 及 如 何 将 ER 图 转化 为 关系 模式 。 


3.2 关系 数据 库 模 型 基本 概念 


关系 数据 库 模 型 中 ， 一 个 重要 的 概念 是 关系 ( relation)。 一 个 关系 在 关系 数据 库 中 的 存 
在 形式 是 包含 行 与 列 的 一 张 表 。 而 一 个 关系 数据 库 就 是 一 系列 具有 不 同名 称 的 相关 关系 的 
集合 。 

一 个 关系 有 时 也 称 作 一 张 关 系 表 (relation table)， 或 简称 为 表 (table)。 表 中 的 一 列 
(column) 有 时 被 称 为 一 个 域 (field) 或 一 种 属性 (attribute ) 。 表 中 的 一 行 (row) 有 时 被 称 为 
一 个 元 组 (tuple) 或 记录 (record )。 关 系数 据 库 中 各 术语 的 同义词 在 表 3-1 中 给 出 。 

如 表 3-1 所 示 ， 我 们 常 将 一 种 关系 称 作 一 张 表 。 表 3-1 关系 数据 库 模 型 所 使 用 的 同义词 


但 我 们 要 牢记 : 尽管 所 有 的 关系 都 是 表 ， 但 并 非 所 关系 = 关系 表 = 表 
有 的 表 都 是 关系 。 一 张 表 如 果 能 够 称 作 一 个 关系 ， 列 = 属性 = 域 
它 需 要 满足 如 下 条 件 : 行 = 元 组 = 记录 


1. 每 一 列 必须 有 一 个 名 称 。 在 同一 张 表 中 ,不 能 有 相同 的 列 名 。 

2. 在 同一 张 表 中 ， 不 能 有 完全 相同 的 行 。 

3. 在 每 一 行 中 ， 属 于 任何 一 列 的 值 必须 为 单 值 。 表 中 任 一 行 中 不 允许 出 现 多 值 。 

4. 每 一 列 中 的 值 必须 属于 同一 个 (预定 义 的 ) 域 。 

我 们 将 在 图 3-1 的 例子 中 说 明 这 些 规 则 。 在 该 图 中 ， 我 们 采用 两 张 表 来 记录 雇员 信息 ， 
并 假设 在 记录 雇员 信息 的 表 中 有 如 下 一 些 预定 义 的 域 : 

雇员 ID: 4 位 数字 。 

雇员 姓名 : 20 个 字符 以 内 。 

雇员 性 别 : 字符 M 或 F。 























EmplD EmpName | EmpGender | EmpPhone |EmpBdate 






















0001 | Joe M | x234 | 1/11/1985 
10002 | Sue |F | x345 127771983 
OOO 

0003 ,Amy jE xx456 41411990 
| 0004 | Pat he | x567 3/8/1971 | 








10005 | Mike M x678 |5/5/1965 


砷 关系 表 


| | i 
|EmpID | Empinfo |Empinfo EmpPhone ] EmpBdate | 
10001 | joe | 1x234 11/11/1985 | 















































VDOT | Jo M 
op02 |Sue IF |x345 |217/1983 | 
|ooo1 |joe | M x234 11:11/1985 
0004 [Pa |F 1*567. x789 | 3/8/1971 
a Mike | M x678 a long time ago | 


图 3-1 关系 以 及 非 关 系 表 的 实例 


图 3-1 中 位 于 上 部 的 表 就 是 一 张 满足 以 上 条 件 的 合格 关系 表 : 没有 同名 的 列 ， 没 有 相同 
的 行 ， 每 一 行 中 的 属性 值 都 是 单 值 ,每 一 列 中 的 属性 值 都 属于 相同 的 域 。 

而 图 3-1 中 位 于 下 部 的 表 则 是 一 张 非 关 系 表 ， 该 表 违 背 了 前 述 提 及 的 所 有 条 件 : 有 两 列 
同名 ， 有 两 行 完 全 相同 ， 有 一 个 记录 中 雇员 电话 号 码 这 一 属性 的 取 值 是 多 值 ， 且 有 一 行 中 雇 
员 出 生日 期 的 取 值 不 满足 预定 义 的 域 . 

注意 : 图 3-1 中 的 两 张 表 均 可 由 MS Excel 等 电子 制 表 工 具 来 实现 ， 但 仅 上 面 的 那 张 
表 可 以 由 RDBMS 来 实现 。RDBMS 不 人 允许 实现 下 面 的 那 张 表 ， 当 试图 实现 下 面 那 张 表 时 . 
RDBMS 将 会 显示 违规 的 错误 提示 ， : 

除了 前 述 提 及 的 四 项 关系 表 条 件 之 外 ， 关 系 表 还 具有 两 个 额外 的 属性 . 

5. 列 顺序 无 关 。 

6. 行 顺序 无 关 。 

这 两 个 属性 告诉 我 们 ， 无论 关系 表 中 的 行 与 列 如 何 排 序 、 表 中 部 将 包含 同样 的 信息 ， 即 
都 会 被 视 作 同一 张 表 。 当 某 张 表 中 的 所 有 行 与 列 都 被 重新 排序 后 ， 每 一 行 仍然 包含 着 同样 的 
信息 (只 是 顺序 不 同 而 已 )， 且 表 中 仍然 包含 着 同样 的 行 (只 是 顺序 不 同 而 已 )。 图 3-2 中 的 
例子 说 明了 这 个 问题 ， 它 显示 了 两 张 行列 顺序 不 同 的 表 ， 这 两 张 表 其 实 是 相同 的 表 。 


一 个 关系 


EmpiD | EmpName | EmpGender EmpBdate 
| M 





O0005 | Mike 


图 3-2 行 和 列 出 现 顺 序 不 同 的 关系 表 实 例 
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S 


同一 个 关系 (与 行 和 列 的 顺序 无 关 ) 


EEC 
7 
Sue |0002 |F 2/7/1983 
0004 |F 3/8/1971 


图 3-2 ( 续 ) 











3.3 主 码 

每 一 个 关系 都 有 一 列 (在 一 些 情况 下 允许 多 列 ) 作为 主 码 (primary key)。 其 目的 是 在 关 
系 中 区 分 不 同 的 行 。 以 下 是 主 码 的 定义 

主 码 

每 一 个 关系 必须 有 一 个 主 码 ， 对 于 每 一 行 来 说 ， 主 码 是 取 值 不 同 的 一 列 (或 几 

列 的 集合 ): 

在 图 3-3 所 示 的 雇员 关系 中 .EmpID 列 可 作为 主 码 . 注意 ， 主 码 名 称 下 面 有 一 条 下 划 线 ， 
以 将 主 码 和 其 他 列 区 分 开 来 . 

EMPLOYEE 


Enm mplD ER 
0001 


| | 
EmpGender EmpPhone | EmpBdate 


ee 
x*234 1/11/1985 






| Joe 






















| F x345 217/1983 

F x567 3/8/1971 

M |x678 5/5/1965 

M |x666 8/1/1974 

F x777 4/5/1980 

001 1 lvan M | [i777 3/4/1981 


图 3-3 带 下 划 线 主 码 的 关系 表 
在 图 3-3 的 例子 中 ， 每 一 个 雇员 具有 独一无二 的 EmpID 取 值 。 而 这 个 关系 中 的 其 他 列 
不 能 作为 主 码 ， 这 是 因为 ， 不 同 的 雇员 可 能 会 拥有 相同 的 姓名 、 相 同 的 性 别 、 相 同 的 出 生日 
期 以 及 相同 的 电话 号 码 . 


3.4 将 实体 映射 为 关系 


如 前 所 述 ， 一 且 ER 图 建立 ， 接 下 来 的 工作 就 是 将 其 映射 为 一 系列 的 关系 。 这 一 过 程 始 
于 将 实体 映射 为 关系 ， 即 每 一 个 常规 实体 成 为 一 个 关系 ， 每 ea 
新 创建 的 关系 中 的 一 列 。 如 果 一 个 实体 中 有 一 个 单 值 的 且 唯 一 标识 的 属性 ， 那 么 这 个 属性 在 
最 终 映射 得 到 的 关系 中 就 可 作为 主 码 ” 。 


号 ”本章 的 后 面部 分 将 介绍 如 何 将 有 多 个 唯一 属性 的 实体 映射 为 联系 。 
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图 3-4 中 给 出 了 一 个 实例 以 说 明 一 个 实体 如 何 映射 为 一 个 关系 。 用 一 个 长 方形 来 表示 关 
系 ， 长 方形 中 包含 了 关系 中 所 有 列 的 列 名 。 注 意 ， 其 中 CustID 这 一 列 名 下 面 有 和 下划线 ， 表 
明 CustID 是 关系 CUSTOMER 中 的 主 码 。 159 | 
一 旦 映射 关系 作为 关系 数据 库 的 一 部 分 被 创建 它 就 可 以 装载 数据 。 图 3-5 展示 了 
CUSTOMER 关系 的 样 例 数 据 ， 


CustBDate 


CUSTOMER CUSTOMER 

CustIiD CustGender | CustBdate 
Tom mW [ies | 
2222 |Jenny |F |2/2/1968 


aa jeeg [Mm [ao 


图 3-4 将 实体 映射 成 关系 图 3-5 图 3-4 所 示 关 系 表 的 样本 数据 记录 





得 到 的 关系 





CUSTOMER 
CustID 
CustName 
CustGender 
CustBdate 









3.5 将 具有 复合 属性 的 实体 映射 为 关系 


如 果 一 个 实体 包含 复合 属性 ， 则 复合 属性 中 的 每 一 个 组 成 部 分 都 将 映射 为 关系 中 的 一 
列 ， 而 复合 属性 目 身 并 未 显 式 地 出 现在 映射 后 的 关系 中 。 

图 3-6 给 出 了 一 个 例子 以 说 明 如 何 将 一 个 具有 复合 属性 的 实体 映射 为 关系 。 注意 ， 复 合 
属性 的 名 称 并 未 出 现在 映射 得 到 的 关系 中 。 


CustBdate 





CUSTOMER 


得 到 的 关系 
CUSTOMER 


CustiD 
CustFName 
CustLName 
CustGender 
CustBdate 


图 3-6 将 具有 复合 属性 的 实体 映射 为 关系 


一 旦 映射 关系 作为 关系 数据 库 的 一 部 分 被 创建 ， 它 就 可 以 装载 数据 ， 如 图 3-7 所 示 。 
尽管 复合 属性 的 名 称 并 没有 作为 关系 模式 的 一 部 分 ， 但 它 仍然 可 能 作为 基于 关系 数 [60] 
据 库 的 前 端 应 用 的 一 部 分 。 举 个 例子 来 说 ， 如 图 3-7 所 示 ， 包 含 CUSTOMER 关系 的 数据 
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. 库 前 端 应 用 也 许 会 存在 一 个 复合 属性 CustEFullName， 这 个 复合 属性 包含 了 CustFName 和 
CustLName。 图 3-8 说 明了 如 何 通过 相应 数据 库 的 前 端 应 用 向 用 户 展示 关系 信息 。 


CUSTOMER 













CustiD | CustFName | CustLName | CustGender | CustBdate 
Tom | Lendrum M 1/1/1965 
Greg |Newton IM |1/2/1962 

Danks F 2/2/1983 


图 3-7 图 3-6 所 示 关 系 的 样本 数据 记录 





CUSTOMER 


Ez 


3339 172/1962 





图 3-8 将 图 3-7 所 示 的 关系 在 终端 应 用 程序 中 展示 给 用 户 


3.6 将 具有 唯一 复合 属性 的 实体 映射 为 关系 


第 2 章 中 曾 提 到 一 个 实体 可 能 拥有 一 个 具有 唯一 标识 的 复合 属性 。 图 3-9 中 进一步 说 明 
了 如 何 将 一 个 具有 唯一 标识 复合 属性 的 实体 映射 为 一 个 关系 。 


{ClassroomID) 












NoOfSeats 


CLASSROOM 





得 到 的 关系 
CLASSROOM 


Building 
RoomNumber 
NoOfSeats 


图 3-9 将 具有 唯一 复合 属性 的 实体 映射 为 关系 


注意 ， 在 得 到 的 关系 中 ，Building 列 和 RoomNumber 列 的 名 称 下 面 都 有 下 划 线 ， 这 是 因 
为 这 两 列 组 合 起 来 形成 CLASSROOM 关系 的 主 码 。 由 多 个 属性 组 合 起 来 形成 的 主 码 称 为 复 


昌 ”前端 应 用 将 在 第 6 章 进行 讨论 。 


合 主 码 ( composite primary key)。 图 3-10 展示 了 由 CLASSROOM 关系 的 样 例 数据 所 摘 述 的 
四 个 不 同 教室 及 其 座位 容量 。 注 意 ， 对 于 每 一 行 而 高 ， 


和 锚 3 足 尖 系 数据 翌 建 二 39 


取 值 ， 但 由 Building 和 RoomNumber 组 成 的 复合 属性 却 具 有 唯一 的 取 值 。 
CLASSROOM 


Building 
Maguire 


50 





图 3-10 图 3-9 所 示 关 系 的 样本 数据 记录 


3.7 将 具有 可 选 属性 的 实体 映射 为 关系 


第 2 章 中 曾 提 到 一 个 实体 可 以 包含 可 选 属 
性 ， 可 选 属 性 的 取 值 允许 为 空 。 当 可 选 属性 被 
映射 为 关系 时 ， 所 得 结果 中 的 可 选 列 被 标记 为 
(O)， 如 图 3-11 所 示 。 

一 旦 图 3-11 中 的 关系 作为 关系 数据 库 的 一 
部 分 得 以 实现 ， 它 就 可 以 装载 数据 ， 如 图 3-12 
所 示 。 属 性 Bonus 是 可 选 属性 ， 所 以 在 Bonus 
这 一 列 中 允许 属性 取 值 为 空 。 

注意 ， 图 3-12 雇员 关系 表 的 第 一 行 和 最 后 
一 行 记 录 的 Bonus 列 中 都 没有 属性 取 值 。 在 数据 
库 术 语 中 ， 一 个 未 被 赋值 的 记录 称 为 “ 空 ”， 意 
为 “没有 取 值 ”。 所 以 ,我 们 可 以 将 第 一 行 和 最 
后 一 行 的 Bonus 属性 取 值 称 为 空 值 。 


3.8 实体 完整 性 约束 


术语 “约束 ”是 指 为 确保 关系 数据 库 的 有 效 
性 而 需 满 足 的 各 种 规则 。 实 体 完 整 性 约束 (entity 
integrity constraint) 则 是 指 “ 所 有 的 主 码 属性 必 
须 有 非 空 取 值 ” 这 一 关系 数据 库 规 则 。 


实体 完整 性 约束 


实体 


Bonus (O) 





得 到 的 关系 
EMPLOYEE 
EmpID 
Salary 
Bonus (9) 


图 3-11 将 具有 可 选 属性 的 实体 映射 为 关系 





图 3-12 图 3-11 所 示 关 系 的 样本 数据 记录 


在 一 张 关系 表 中 ， 不 存在 包含 空 值 的 主 码 列 。 


换言之 ， 实 体 完 整 性 约束 是 一 种 要 求 没 有 可 选 属性 存在 的 主 码 列 规则 。 每 一 种 RDBMS 


都 需 执 行 这 个 规则 。 


举例 来 说 ， 在 图 3-13 雇员 关系 中 的 每 一 条 记录 ， 在 EmpID 这 项 属性 上 都 必须 有 一 个 非 
空 取 值 ， 因 为 EmpID 是 该 关系 中 的 主 码 。 如 果 EmpID 属性 有 空 值 ， 则 将 违反 完整 性 约束 。 


没有 任 一 个 单独 的 列 具 有 独一无二 的 


| 61 | 


60 锣 一 部 分 ” 表 作 型 鸡 据 碎 


因此 ，RDBMS 不 允许 插入 的 雇员 关系 记录 中 EmpID 属性 值 为 空 。 


EMPLOYEE EMPLOYEE 


np suey [ov 


1234 |$75.000| | 
2345 | $50.000 | $10.000 





















eno som [eve 
1234 | $75.000 
$10,000 







< 


VALID 
违反 实体 完整 性 
约束 

图 3-13 ”实体 完整 性 约束 : 遵守 与 违反 的 例子 


同样 ， 在 图 3-14 中 ， 每 一 个 在 CLASSROOM 关系 中 记录 的 Building 和 RoomNumber 
属性 也 不 能 为 空 ， 因 为 这 两 项 属性 组 合 起 来 构成 一 个 复合 主 码 。 





CLASSROOM CLASSROOM 
Building NoOfSeats Building NoOfSeats 
Magure | 110 
ET 
VALID INVALID 
违反 实体 完整 性 
约束 


图 3-14 实体 完整 性 约束 : 另 一 个 遵守 与 违反 的 例子 


3.9 ”外 码 


在 将 ER 图 映射 为 关系 模式 的 过 程 中 ， 除 了 映射 实体 之 外 ， 实 体 间 的 联系 也 是 需要 映射 
的 。 外 码 ( foreign key) 正 是 用 来 刻画 关系 数据 库 模 型 中 实体 间 联 系 的 一 种 机 制 。 外 码 的 定 
义 如 下 : 


外 码 
外 码 是 某 关系 中 的 一 列 ， 这 一 列 又 恰好 是 另外 一 个 关系 中 的 主 码 。 


每 当 有 外 码 出 现在 关系 模式 中 时 ， 都 会 包含 一 条 从 外 码 指 向 相应 主 码 的 连 线 。 
本 章 中 的 例子 通过 关系 模式 说 明了 外 码 的 概念 ， 并 描述 了 外 码 如 何 应 用 在 关系 数据 库 模 
型 的 一 对 一 (1 : 1)、 一 对 多 (1 : M) 以 及 多 对 多 (M : N) 的 关系 中 。 


3.10 将 联系 映射 为 关系 数据 库 组 件 


前 面 已 经 介绍 了 如 何 将 ER 图 映射 为 关系 。 接 下 来 将 介绍 如 何 将 实体 间 的 联系 映射 为 关 
系 模式 。 


免 了 昔 关 系数 据 亩 建 碳 。 56561 


3.10.1 1 : M 联 系 的 映射 


首先 看 看 一 对 多 联系 的 映射 规则 : 

由 一 对 多 联系 中 属于 M 侧 的 实体 所 映射 得 到 的 关系 有 一 个 外 码 ， 这 个 外 码 对 应 于 由 1 
侧 的 实体 映射 得 到 的 关系 中 的 主 码 ， 

图 3-15 中 的 例子 展示 了 这 一 规则 的 应 用 。 在 一 对 多 关系 ReportsTo 中 ,雇员 实体 属于 
M 侧 而 部 门 实 体 属于 1 侧 。 在 将 雇员 实体 映射 得 到 的 关系 中 ， 有 一 个 外 码 列 DeptID, 这 一 列 
对 应 于 部 门 这 一 关系 中 的 主 码 。 图 3-15 所 示 的 关系 模式 中 ， 从 雇员 关系 的 外 人 码 到 部 门 关 系 
的 主 码 间 有 一 条 连 线 。 





得 到 的 关系 模式 


EMPLOYEE DEPARTMENT 


EmpID DeptID 
EmpName DeptLocation 


DeptID (FK) 
图 3-15 一 对 多 联系 的 映射 


图 3-15 所 示 的 关系 模式 一 旦 作为 关系 数据 库 得 以 实现 ， 它 就 可 以 装载 数据 ， 如 图 3-16 
所 示 。 

注意 ， 外 码 值 (雇员 关系 中 DeptID 这 列 的 取 值 ) 将 雇员 与 他 
们 隶属 的 部 门 关联 了 起 来 。 

我 们 接 下 来 将 讨论 可 选 参 与 和 强制 参与 对 关系 数据 库 中 的 1 
侧 和 M 侧 的 影响 。 3456 [Rob | 

1 侧 的 强制 参与 ”首先 来 看 看 强制 参与 在 1 侧 的 影响 。 注 意 ， 
图 3-15 所 示 的 雇员 实体 在 隶属 关系 上 是 强制 参与 的 ， 则 雇员 关系 ”DEPARTMENT 
中 的 DeptID 外 码 列 要 求 有 非 空 取 值 。 因 此 ， 在 图 3-16 中 可 以 看 ”|DeptiD | peptLocation 
到 ,雇员 关系 中 的 每 一 条 记录 在 DeptID 列 都 有 一 个 非 空 值 。 1 lsuteA | 

M 侧 的 强制 参与 ”我 们 再 来 看 看 强制 参与 在 M 侧 的 影响 。 
图 3-15 所 示 的 部 门 实体 在 隶属 关系 中 要 求 强制 参与 ， 所 以 在 图 3-16 图 3-15 所 示 关 系 
图 3-16 中 所 有 的 部 门 都 至 少 有 一 个 雇员 与 之 相对 应 。 换 铝 话 说 ， 数据 库 的 样本 数据 记录 
在 部 门 关 系 中 ， 不 存在 没有 与 之 对 应 的 雇员 关系 的 记录 。 部 门 (1，SuiteA) 对 应 于 雇员 
(1234, Becky) 和 (3456, Rob)， 而 部 门 (2, SuiteB ) 对 应 于 雇员 ( 2345, Molly) 和 ( 1324， 
Ted ) 。 

1 侧 的 可 选 参与 图 3-17 反映 了 可 选 参与 在 1 侧 的 影响 。 在 这 个 例子 中 ， 雇 员 实 体 在 
其 隶属 关系 上 是 可 选 参 与 的 ， 因 此 ,雇员 关系 中 的 DeptID 这 一 外 码 是 一 个 可 选 列 。 

一 旦 图 3-17 所 示 的 关系 模式 作为 关系 数据 库 实现 ， 它 就 可 以 加 载 数据 ， 如 图 3-18 
所 示 。 


EMPLOTYEE 


Emplo | EmpName | DeptiD 
a looy | 
me 
Em 







L64 | 


62 锣 一 万 分 ” 打 人 型 发 据 诗 


ER 括 | 


Fa 
{ EmplD EmpName | 








DeptLocation 






4 











EMPLOYEE ~ ReportsTo (HH DEPARTMENT 


得 到 的 关系 模式 
EMPLOYEE DEPARTMENT 
DeptID 


DentLocation 





图 3-17 在 1 侧 可 选 参 与 的 一 对 多 映射 


a DEPARTMENT 


EmpName | pept DeptiD | DeptLocation 


Rob 


Ted 
图 3-18 图 3-17 所 示 关 系数 据 库 的 样本 数据 记录 


注意 ， 图 3-18 中 的 雇员 表 与 图 3-16 中 的 不 同 。 在 图 3-18 中 ， 并 不 是 所 有 的 DeptID 列 
都 有 取 值 ， 如 雇员 (3456，Rob) 就 没有 DeptID 属性 值 。 
M 侧 的 可 选 参与 ”让 我 们 再 来 看 看 在 M 侧 的 可 选 参 与 的 例子 。 如 图 3-19 和 图 3-20 所 示 。 


ER 图 



























EmpName 


ei 
EMPLOYEE ReporntsTo 


得 到 的 关系 模式 


DeptlD DeptLocation) 


DEPARTMENT 


EMPLOYEE DEPARTMENT 
EmpName DeptlLocation 
DeptlD (Fr 
图 3-19 在 M 侧 可 选 参与 的 一 对 多 映射 
3| 3-19 的 关系 模式 作为 关系 数据 库 实 现 ， 它 就 可 以 装载 数据 ， 如 图 3-20 所 示 。 


总 生计 DEPARTMENT 
EmplD | EmpName DeptiD 

















DeptiD | DeptLocation 


ET 


1 1234 | 1234 | Becky 1 





456 [Roo 


| 





图 3-20 图 3-19 所 示 关 系数 据 库 的 样本 数据 记录 
注意 ， 图 3-20 中 存在 一 个 部 门 (3， SuiteCY. 没有 与 之 相对 应 的 雇员 记录 。 如 图 3-19 


和 锚 了 3 足 关系 发 据 翌 建 左 全 


证 的 洒 门 实体 ， 其 隶属 关系 在 M 侧 的 可 选 参 与 将 导致 这 一 现象 的 出 现 。 [65 | 
外 码 的 重 命名 图 3-21 展示 了 另外 一 个 将 一 对 多 关系 映射 为 关系 模式 的 例子 。 在 这 个 
例子 中。 教授 关系 中 的 主公 ProlD 在 其 对 应 的 学 生 表 中 更 名 为 AdivisorID。 将 外 码 重 命名 是 
完全 合法 的 。 在 本 例 中 ， 我们 将 教授 ID 重 命 名 为 导师 ID ， 会 帮助 我 们 更 好 地 理解 学 生 关 系 
中 教授 所 扮演 的 角色 ( 即 指 导 角 色 )。 
ER 图 
Ce) ER CgrofiD 


pe 


1 










有 








STUDENT < Advises PROFESSOR 


7 二 | Te -下 
得 到 的 关系 模式 


STUDENT PROFESSOR 
StudentiD ProfID 
StudentName profLname 








AdvISGrID (FK) 
图 3-21 “ 另 一 个 一 对 多 联系 的 例子 
如 图 3-22 所 示 ， 一旦 图 3-21 中 所 示 的 关系 模式 实现 为 一 个 关系 数据 库 ， 我 们 就 可 向 其 
中 添加 数据 . 


STUDENT PROFESSOR 


StudentName | AdvisorlD ProflD | proftname 









StudentiD 











图 3-22 图 3-21 所 示 关 系数 据 库 的 样本 数据 记录 


3.10.2 M : N 联系 的 映射 


首先 看 看 多 对 多 联系 映射 的 规则 : 

除了 多 对 多 联系 的 两 个 实体 需 映 射 为 关系 之 外 ， 多 对 多 联系 本 身 也 需要 映射 为 关系 。 这 
种 新 关系 有 两 个 外 码 ， 对 应 多 对 多 联系 中 两 个 实体 的 主 码 。 这 两 个 外 码 就 构成 了 这 个 新 关系 
的 复合 主 码 ， 

图 3-23 的 例子 中 展示 了 学 生 (STUDENT) 与 组 织 (ORGANIZATION) 这 两 个 实体 间 
的 多 对 多 联系 一 一 从 属 ( BelongsTo) 关系 ， 并 说 明了 多 对 多 联系 映射 规则 的 具体 应 用 。 当 
图 3-23 中 的 ER 图 映射 为 关系 模式 时 ， 除 了 学 生 和 组 织 这 两 个 关系 之 外 ， 还 要 建立 一 个 代 
表 “ 从 属 ” 这 个 多 对 多 联系 的 关系 。 诸 如 “从 属 ” 这 样 的 多 对 多 联系 ， 有 时 候 也 被 称 作 桥 
关系 ( bridge relation)。 从 属 关 系 有 两 个 外 人 码 ， 每 一 个 外 码 都 用 一 条 连 线 与 它们 的 对 应 源 实 
体 相 连 。 其 中 一 条 连 线 由 从 属 关系 中 的 StudentID 连接 到 学 生 关 系 中 的 主 码 StudentID， 男 
一 条 连 线 则 由 从 属 关 系 的 OrgID 连接 到 组 织 关系 中 的 主 码 OrgID。 在 从 属 关 系 的 两 个 外 码 
StudentID 和 OrgID 下 面 都 有 一 条 下 划 线 ， 表 示 这 两 个 码 组 合 起 来 形成 从 属 关 系 的 复合 主 
人 码 。( 一 个 桥 关系 可 以 取 与 原 ER 图 实体 多 对 多 联系 不 一 样 的 名 字 ， 比 如 ， 数 据 库 设计 者 也 许 
会 决定 使 用 “参与 ”( PARTICIPATION) 这 个 名 字 来 代替 “从 属 ”， 因 为 前 者 比 后 者 更 适合 。 
尽管 如 此 ， 我 们 在 这 个 例子 中 仍然 采用 从 属 这 个 名 称 。) 
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一 旦 图 3-23 中 的 关系 模式 作为 关系 数据 库 实 现 ， 它 就 可 以 装载 数据 ， 如 图 3-24 所 示 。 
注意 从 属 关系 中 的 取 值 是 如 何 将 学 生 与 他 们 从 属 的 组 织 联系 起 来 的 。 


ER 图 








StudentName OrgLocation 





得 到 的 关系 模式 
STUDENT ORGANIZATION 

StudentID 

SN BELONGSTO de 
StudentGender StudentID (Fr) OrgType 

OrgID (Fxk) 
图 3-23 多 对 多 联系 的 映射 
STUDENT ORGANIZATION BELONGSTO 










OrglD | OrgLocation |OrgType 
O11 | Student Hall 
Ga1 | Damen Hal 
Student Hall 


StudentD | StudentName | StudentGender 
Ti kan we | 
zz lp we 
a 















图 3-24 图 3-23 所 示 关 系数 据 库 的 样本 数据 记录 


如 果 学 生 实 体 在 从 属 关 系 中 是 可 选 参 与 的 ， 则 可 能 会 存在 额外 的 属于 学 生 关系 中 的 学 
生 ， 但 这 些 学 生 的 ID 没有 出 现在 从 属 关 系 表 的 StudentID 中 。 同 样 ， 如 果 组 织 实 体 在 从 属 
关系 中 是 可 选 参与 的 ， 则 可 能 会 存在 额外 的 属于 组 织 关 系 中 的 组 织 ， 这 些 组 织 的 ID 也 没 
有 出 现在 从 属 关 系 表 的 OrgID 中 。 这 样 的 情况 在 图 3-25 和 图 3-26 中 有 所 体现 。 图 3-25 展 
示 了 两 侧 均 为 可 选 参与 的 从 属 关系 。 一 旦 图 3-25 所 示 的 关系 模式 作为 关系 数据 库 实现 ， 它 
就 可 以 装载 数据 ， 如 图 3-26 所 示 。 注 意 ， 学 生 (4444，Abby) 并 不 属于 任何 组 织 ; 而 组 织 
( O50，DamenHall, Politics) 也 同样 没有 任何 学 生 。 这 可 能 是 图 3-25 中 的 从 属 关 系 两 边 的 可 


选 参 与 导致 的 。 


ER 图 


OrgLocation 







StudentName 





StudentGender 















得 到 的 关系 模式 
STUDENT ORGANIZATION 
StudentiD OrgID 
StudentName BELONGSTO OrgLocation 
StudentGender StudentID (FxK) OrgType 


OrgID (FK) 
图 3-25 (两 侧 同 时 具有 可 选 参与 的 ) 多 对 多 联系 
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STUDENT ORGANIZATION BELONGSTO 


StudentiD | StudentName | StudentGender 
1111 |Robn JIMae | 
22227 |Pa |Mae 
3333 
Abby 









StudentiD | OrglD 


OrgiD | OrgLocation |OrgType 


11 | Staen al [ Crary 
Ga | Damen Har [Spor 











图 3-26 图 3-25 所 示 关 系数 据 库 的 样本 数据 记录 


我 们 曾 在 第 2 章 中 提 到 ， 一 个 多 对 多 联系 可 以 有 自己 的 属性 。 当 一 个 具有 自身 属性 的 
多 对 多 联系 被 映射 为 关系 模型 时 ， 多 对 多 联系 中 的 每 一 个 属性 都 将 映射 为 关系 中 的 一 列 。 67 
图 3-27 展示 了 这 种 情况 . 


ER 图 


(StudentName Ce ) OrgLocation 
2 | 
( StugentID (StudentGender OrgType 


STUDENT Db SelongsTD HORGANIZATION 


得 到 的 关系 模式 
STUDENT ORGANIZATION 


Gen BELONGSTO Sa 人 烽 
(udentNarnt StudentID (FK) r9LOcation 


StudentGender OrgID (FK) OrgType 
Function 































图 3-27 具有 属性 的 多 对 多 映射 


一 旦 如 图 3-27 所 示 的 关系 模式 被 作为 关系 数据 库 实现 ， 它 就 可 以 加 载 数 据 ， 如 图 3-28 
所 示 。 
STUDENT ORGANIZATION BELONGSTO 
oa 
GT 














OrglID| Function 


Ti on [Presaem 
aa om lvP | 
aa3a [O11 |Member | 







图 3-28 图 3-27 所 示 关 系数 据 库 的 样本 数据 记录 


3.10.3 1 : 1 联系 的 映射 


一 对 一 联系 的 映射 与 一 对 多 联系 的 映射 很 相似 。 映 射 得 到 的 某 个 关系 中 将 会 有 一 个 外 
码 ， 这 个 外 码 指向 另 一 个 关系 的 主 码 。 在 一 对 多 联系 映射 中 我 们 需要 遵从 一 条 规则 ， 这 个 规 
则 要 求 由 1 侧 映 射 得 到 的 关系 的 主 码 ， 同 时 是 由 M 侧 得 到 的 关系 的 外 码 。 在 一 对 一 联系 中 ， 
两 个 实体 的 最 大 基数 值 为 1。 因 此， 我 们 可 简单 地 挑选 任意 一 个 映射 关系 ， 并 将 其 外 码 对 应 
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男 一 个 映射 关系 的 主 码 即 可 。 

若 选 取 某 一 个 关系 包含 外 码 并 没有 特别 明显 的 优势 ， 那 么 此 时 的 选择 可 以 是 任意 的 。 然 
而 ,很 有 可 能 选择 其 中 某 一 个 关系 来 包含 外 码 ， 比 选择 男 一 关系 包含 外 人 码 更 有 效率 。 举 个 例 
子 ， 如 果 待 选择 的 关系 中 ， 其 中 一 个 的 外 码 是 可 选 性 的 ， 而 另 一 个 是 强制 性 的 ,那么 选择 蝇 
制 性 的 外 码 将 更 可 取 。 考 虑 图 3-29 和 图 3-30 所 示 的 情况 ， 这 是 一 个 一 对 一 的 联系 ， 我 们 将 
选择 VEHICLE 这 个 关系 来 包含 外 码 EmpID， 这 样 可 以 保证 外 码 的 取 值 没有 空 但 。 如 有 果 我 
们 采用 另 一 种 选择 ， 即 用 EMPLOYEE 关系 来 包含 外 码 VehicleID ， 这 个 外 码 就 是 可 选 性 的 ， 
这 将 使 得 外 码 中 存在 空 值 。 可 选 性 的 外 码 虽 是 合法 的 (如 图 3-17 和 图 3-18 所 示 )， 但 是 当 可 
选 性 和 强制 性 外 码 同 时 可 供 选 择 时 ， 我 们 最 好 选择 强制 性 外 人 码 : 




















ER 图 
-一 Ts we > 
{ EmpiD ) ( EmpName ) :hicl } (ererype 
~、、 pa SN 2 人 
mo 一 as 
EMPLOYEE ”1sAllotted VEHICLE 
得 到 的 关系 模式 


EMPLOYEE VEHICLE 
VehicleID 


EmpName VenicleType 
EmMmplID (FK) 





图 3-29 1 :1 关系 的 映射 


EMPLOYEE VEHICLE 


EmplD VehicleID Vehicletype Emplo 


as6e |Rob | 


图 3-30 图 3-29 所 示 关 系数 据 库 的 样本 数据 记录 













3.11 参照 完整 性 约束 

参照 完整 性 约束 (referential integrity constraint) 是 在 关系 数据 库 中 对 外 码 有 效 取 值 的 定 
义 规 则 。 

参照 完整 性 约束 

在 包含 外 码 的 关系 中 ， 每 一 行 的 外 码 取 值 要 么 对 应 其 参照 关系 中 的 主 码 取 值 ， 

要 么 为 空 。 

以 上 定义 允许 外 码 取 值 为 空 。 当 带 外 码 的 联系 具有 可 选 参 与 的 实体 ， 并 且 该 实体 在 映射 
为 关系 后 同样 具有 外 码 时 ， 将 允许 那些 映射 后 具有 外 码 的 实体 具有 可 选 参 与 性 。 我 们 采用 
图 3-17 所 示 的 例子 来 说 明 参 照 完 整 性 约束 的 定义 。 

在 图 3-17 所 示 的 ER 图 中 ， 实 体 EMPLOYEE 在 与 实体 DEPARTMENT 的 关系 中 具有 
可 选 参与 性 。 在 相应 的 关系 模式 中 ，EMPLOYEE 关系 有 一 个 外 码 DeptID。 图 3-31 中 给 出 
了 对 应 于 图 3-17 的 几 个 符合 和 违反 参照 完整 性 约束 的 例子 。 
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DeptlD | DeptLocation 


enoo enonone [oo 


as voy |]21 
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1 ~ 
2/ 本 ss 和 
DNS 
EMPLOYEE 中 的 


每 一 个 DeptID 外 码 值 N\ 






过 了 都 参照 DEPARTMENT 中 
已 存在 的 DeptID 主 反 值 
EMPLOYEE DEPARTMENT 










EmplD EmpName | DeptD | DeptiD | DeptLocation 


1234 二 Suite A 
2345 |Moll 2 I Son 
2345 |Molly | 2 六 | 
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3456 


Rob | We 
1324 [Ted [8 小 
EMPLOYEE 中 的 AN 


每 一 个 DeptID 外 码 值 
遵守 邦 参 照 DEPARTMENT 中 
已 存在 的 DeptID 主 但 值 或 为 空 









EMPLOYEE DEPARTMENT 






Sute B 


EMPLOYEE 中 该 DeptID 外 三 
值 不 存在 于 DEPARTMENT 的 
DeptID 主公 值 中 








图 3-31 参照 完整 性 约束 ， 遵守 和 违反 的 例子 


在 图 3-31 上面 的 例子 中 ， 所 有 在 EMPLOYEE 关 系 中 的 外 码 都 参照 了 已 有 的 
DEPARTMENT 关系 中 的 主 码 ， 因 此 没有 违反 参照 完整 性 约束 。 

在 图 3-31 中 间 的 例子 中 .所 有 在 EMPLOYEE 关 系 中 的 外 人 码 都 参照 了 已 有 的 
DEPARTMENT 关系 中 的 主 码 。 其 中 的 一 个 外 码 取 值 为 空 ， 这 也 符合 参照 完整 性 约束 (并且 
符合 图 3-17 中 EMPLOYEE 实体 在 关系 中 的 可 选 参与 )。 

在 图 3-31 下 面 的 例子 中 ，EMPLOYEE 关系 中 的 一 个 外 码 取 值 (DeptID=4 ) 并 没有 参照 
已 有 的 DEPARTMENT 关系 中 的 主 码 ， 因 此 这 是 一 个 违反 参照 完整 性 约束 的 例子 。 

如 前 所 述 ， 关 系 模式 是 由 关系 和 关系 之 间 的 连 线 构成 的 ， 其 中 连 线 将 由 外 码 连 接 到 相应 
的 主 码 。 由 于 每 一 条 从 外 人 码 连 接 到 相应 主 码 的 连 线 都 要 服从 完整 性 约束 ， 所 以 我 们 把 这 样 的 
连 线 称 作 参照 完整 性 约束 连 线 (referential integrity constraint line ) 。 


3.12 ”实例 : 将 ER 图 映射 为 关系 模式 
我 们 现在 给 出 一 个 具体 的 实例 来 总 结 一 下 前 面 提 到 的 那些 将 ER 图 映射 为 关系 数据 库 的 
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规则 。 图 3-32 展示 了 由 ZAGI 零售 公司 销售 部 门 数 据 库 ER 图 上 映射 而 成 的 关系 模式 (这 个 实 
例 曾 在 前 一 章 的 图 2-13 中 展示 过 ， 为 方便 后 续 讲 解 ， 我们 将 其 重新 给 出 )。 
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REGION 
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Eee Ce ) 
CIN a 
SALES IN 
TRANSACTION 7 < > CUSTOMER 











PRODUCT 
ProductID 
ProductName 
REGION ProductPrice VENDOR 
RegionID VendorID {Fx) VendoriD 
RegionName CategoryID (Fx) VendorName 
STORE SOLDVIA 
StoreID ProductID (Fx) CATEGORY 
StoreZip TID (Fx) CategoryID 
RegionlD (Fx) NoOfltems CategoryName 
CUSTOMER 
SALESTRANSACTION CustomerID 
TID CustomerName 
TDate CustomerZip 
StorelD (FX) 


CustomeriD (Fx) 


图 3-32 将 ER 图 映射 为 关系 模式 的 例子 ZAGI 零售 公司 


这 张 ER 图 中 有 7 个 实体 和 1 个 多 对 多 关系 。 因 此 ， 其 关系 模式 中 就 有 8 个 关系 表 ， 对 
应 为 7 个 实体 与 1 个 实体 间 的 多 对 多 关系 。 
一 旦 图 3-32 所 示 的 关系 模式 作为 关系 数据 库 实现 ， 它 就 可 以 装载 数据 ， 如 图 3-33 
L70j 所 示 。 
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REGION PRODUCT VENDOR 
2Zzz Bag $100 PG CP PG Pacifica Gear 
Easy Boot Mountain King 
Cosy Sock | 
CATEGORY 
CategoryiD | CategoryName | 


SOLDVIA CUSTOMER 


ProductiD | TID | NoOfitems CustomeriD CustomerName Customerzip 













T222 1-Jan-2013 3-4.555 Pam 35401 





T333 | 1-2-333 2-Jan-2013 
T444 | 3-4-555 S3 2-Jan-2013 
T1555 | 2-3.444 Is3 |2-Jan:2013 





图 3-33 图 3-32 所 示 ZAGI 零售 公司 销售 部 门 数据 库 的 样本 数据 记录 


3.13 ”将 拥有 若干 候选 码 ( 多 个 唯一 属性 ) 的 实体 映射 为 关系 

第 2 章 中 曾 提 到 一 个 实体 可 以 具有 多 个 唯一 属性 。 在 这 种 情况 下 ， 每 个 唯一 属性 称 为 一 
个 “候选 码 ”。 术 语 “ 候 选 码 ”得 名 于 这 样 一 个 事实 : 候选 码 中 的 一 个 必 将 由 数据 库 设 计 者 
选中 作为 实体 -关系 映射 过 程 中 的 主 码 ， 而 其 他 没有 被 选中 的 候选 码 则 被 映射 为 非 主 码 列 。 
图 3-34 展示 了 一 个 拥有 知 干 候选 码 的 实体 映射 为 头 
系 的 例子 。 实体 

在 关系 模式 中 ， 只 有 主 码 有 下 划 线 。 在 图 3-34 
所 示 的 关系 中 ， 只 有 EmpID 有 下 划 线 ， 因 为 数据 库 
设计 者 选择 它 作为 主 码 。SSN 没有 下 划 线 ， 因 为 在 
这 里 它 并 没有 被 选择 作为 主 码 。 尽 管 如 此 ， 我 们 还 
是 可 以 在 非 主 码 的 唯一 属性 后 面 用 带 括 号 的 大 写字 





母 U 来 表示 其 可 被 唯一 标识 。 得 到 的 关系 : 
一 旦 图 3-35 所 示 的 关系 模式 作为 数据 库 实现 ， ee 
它 便 可 以 装载 数据 ， 如 图 3-35 所 示 。 we 


当 候选 码 中 同时 存在 复合 的 和 规则 的 〈 非 复合 
的 ) 候选 码 时 ， 则 以 非 复 合 候选 码 作为 主 码 将 会 是 
更 好 的 选择 。 如 图 3-36 所 示 。 EMPLOYEE 

LPNumber (牌照 号 码 ) 列 和 State (所 属 州 ) 列 
组 合 起 来 虽 可 构成 VEHICLE 关系 的 复合 唯一 属性 ， 
但 VIN (车 牌号 ) 因为 是 非 复 合 唯一 属性 而 最 终 被 
选 作 主 码 。 

一 旦 图 3-36 所 示 的 关系 作为 关系 数据 库 的 一 部 
分 得 以 实现 ， 它 就 可 以 加 载 数据 ， 如 图 3-37 所 示 。 图 3-35 图 3-34 所 示 关 系 的 样本 数据 记录 


图 3-34 将 具有 候选 码 的 实体 映射 为 关系 
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pe ( Mogel 
(LPiate) ) 
—< 
es 
(VIN 
VEHICLE 
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图 3-36 将 具有 常规 及 复合 候选 码 的 实体 映射 为 关系 


VEHICLE 


nro soe were ocr [ven 


2222|x456 | |Fod |Escape |2009 
3333 [x123 |w | Grevoier [von [2012 


图 3-37 图 3-36 所 示 关 系 的 样本 数据 记录 






3.14 将 具有 多 值 属性 的 实体 映射 为 天 系数 据 库 组 件 


我 们 在 第 2 章 中 曾 提 到 ， 多 值 属性 适用 于 同 ER 图 
一 个 实体 的 某 一 个 属性 具有 多 个 取 值 的 情况 。 一 
个 包含 多 值 属性 的 实体 将 被 映射 为 不 含 多 值 属性 
的 关系 。 多 值 属性 将 被 映射 为 一 个 单独 的 关系 ， 
这 个 关系 中 包含 一 个 代表 多 值 属性 的 列 和 一 个 连 
接 相 应 主 码 的 外 码 列 ， 这 两 列 组 成 这 个 单独 关系 


ee ,ww。 上 。 得 到 的 关系 模式 
的 一 个 复合 主 码 。 图 3-38 中 展示 了 如 何 将 其 EMPLOYEE EMPPHONE 


有 多 值 属 性 的 实体 映射 为 关系 。 
EmpName EmpID (rx) 
一 旦 如 图 3-38 所 示 的 关系 模式 作为 关系 数据 
库 实 现 ， 它 就 可 以 装载 数据 ， 如 图 3-39 所 示 。 i 
由 于 EMPLOYEE 实体 中 有 多 值 属性 PhoneNumber， 所 以 在 EMPPHONE 关系 中 ,将 允 
许 在 多 行 中 出 现 不 同 的 电话 号 码 属于 相同 的 雇员 。 
EMPPHONE 关系 中 的 两 列 都 不 是 唯一 标识 的 (例如 雇员 1234、3456 及 1324 共享 同 
一 个 电话 号 码 )， 但 是 EmpID 和 PhoneNumber 这 两 列 的 组 合 却 是 可 唯一 标识 的 。 因 此 ,在 
EMPPHONE 关系 中 ，EmpID 和 PhoneNumber 将 组 合 起 来 形成 复合 主 码 。 







PhoneNumber 





EMPLOYEE 
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EMPLOYEE EMPPHONE 


3456 
1324 


图 3-39 图 3-38 所 示 关 系数 据 库 的 样本 数据 记录 
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3.15 将 具有 派生 属性 的 实体 映射 为 关系 


在 第 2 章 中 我 们 曾 提 到 ， 一 个 派生 属性 是 那 ER 加 
些 属性 值 并 非 永 人 存储 在 数据 库 中 的 属性 。 派 和 后 
属性 的 属性 值 是 通过 计算 其 他 存储 在 数据 库 中 的 
属性 值 而 得 到 的 . 派生 属性 并 不 会 被 映射 为 关系 
模式 的 一 部 分 ， 如 图 3-40 所 示 . 

一 旦 图 3-40 所 示 的 关系 作 关 系数 据 库 实 现 ， 二 
它 就 可 以 加 载 数据 ， 如 图 3-41 所 示 - i 

尽管 派生 属性 不 属于 关系 模式 的 一 部 分 ， 但 
它 仍 可 以 作为 及 创建 数据 库 的 前 端 应 用 的 一 部 分 
得 以 实现 。 举 例 来 说 ， 一 个 基于 数据 库 的 前 端 ” 图 3-40 将 具有 派生 属性 的 实体 映射 到 关系 
应 用 包含 一 个 STORE 关系 ， 如 图 3-41 所 示 ， 这 个 关系 中 包含 了 一 个 新 增 的 计算 得 到 的 列 
YearsInBusiness， 这 个 列 的 值 通 过 表达 式 (当前 日 期 ~ 开始 日 期 ) 得 到 。 图 3-42 展示 了 一 个 
用 户 在 2013 年 夏季 可 以 在 前 端 应 用 中 看 到 的 关系 。 WE 


STORE (RELATION) 


StorelD | OpeningDate 

1.1.2000 
2222 2.2:2001 
3333 3.3.2002 














图 3-41 图 3-40 所 示 关 系 的 样本 数据 记录 图 3-42 将 图 3-41 所 示 的 关系 在 终端 
应 用 程序 中 展示 给 用 户 


3.16 实例: 将 具有 多 种 类 型 属性 的 实体 映射 为 关系 模式 


为 了 对 各 种 类 型 的 属性 的 映射 规则 做 一 个 总 结 ， 我 们 采用 图 3-43 来 展示 一 个 从 
EMPLOYEE 实体 映射 得 到 的 关系 模式 (图 中 内 容 曾 在 前 一 章 的 图 2-25 中 展示 过 。 为 方便 讲 
解 ， 在 此 我 们 将 其 重新 给 出 )。 

一 旦 图 3-43 所 示 的 关系 模式 作为 关系 数据 库 实现 ， 它 就 可 以 装载 数据 ， 如 图 3-44 所 示 。 
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色 3-43 
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图 3-44 


3.17 一 元 联系 的 映射 
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图 3-43 所 示 关 系数 据 库 的 样本 数据 记录 


ER 图 中 的 一 元 联系 可 以 用 与 二 元 联系 同样 的 方式 映射 为 关系 模式 ， 即 使 用 一 对 多 和 一 
对 一 关系 中 的 外 码 ， 以 及 在 多 对 多 关系 中 由 两 个 外 码 构成 的 新 关系 来 实现 这 样 的 映射 。 这 里 
我 们 将 对 一 对 多 、 多 对 多 以 及 一 对 一 的 一 元 关系 映射 进行 描述 。 
3.17.1 1 : M 一 元 联系 的 映射 

下 面 是 一 对 多 一 元 联系 的 映射 规则 : 


党 了 和 旭 关系 发 控 庚 建 检 73 


一 个 由 一 对 多 一 元 联系 实体 映射 得 到 的 关系 中 包含 一 个 外 码 ， 并 且 这 个 外 码 对 应 于 关系 
自身 的 主 码 。 ER 图 

图 3-45 展示 了 一 对 多 一 元 联系 的 映射 。 

注意 ， 外 码 列 ReferredBy 有 一 个 区 别 于 其 相应 
主 码 列 ClientID 的 名 称 ， 这 是 合法 的 ， 这 一 点 在 本 
章 中 已 有 提 及 。 实 际 上 ， 在 这 个 例子 中 ， 重 命名 是 
必须 的 ， 因 为 不 能 有 和 名称 完 全 相同 的 两 列 。 重 命名 
也 说 明了 关系 表 中 外 码 的 角色 。 

同时 应 该 注意 ， 因 为 在 参照 关系 的 一 侧 有 选择 得 到 的 关系 








性 参与 ， 所 以 外 码 ReferredBy 也 是 选择 性 的 。 CLIENT 
一 旦 图 3-45 所 示 的 关系 作为 关系 数据 库 实现 ， | ieee 

它 就 可 以 装载 数据 ， 如 图 3-46 所 示 ReferredBy (O)(FK) 
注意 ， 图 3-46 中 有 一 个 顾客 (C111 ) 并 没有 被 图 3-45 1 : M 一 元 联系 映射 


任何 其 他 顾客 所 介绍 ， 并 且 其 中 有 两 个 顾客 (C333 
和 C444 ) 也 没有 介绍 任何 其 他 顾客 。 这 样 的 情况 是 
允许 的 ， 因 为 图 3-45 中 的 关系 Refers 对 于 两 侧 来 说 
都 是 可 选择 的 。 


3.17.2 M : N 一 元 联系 的 映射 
下 面 是 多 对 多 一 元 联系 映射 的 规则 ; 图 3-46 图 3-45 所 示 关 系 的 样本 数据 记录 
个 关系 。 这 个 新 关系 有 两 个 外 码 ， 它 们 由 多 对 多 联系 中 的 两 个 实体 的 主 码 映射 得 到 。 其 中 每 
一 个 外 码 都 将 作为 新 关系 中 复合 主 码 的 一 部 分 。 
图 3-47 说 明了 多 对 多 一 元 联系 的 映射 。 


CLIENT 











ER 图 
得 到 的 关系 模式 
EMPLOYEE ADVISING 
EmPID Advisor (FK) 
EmpName | Advisee (FK) 


图 3-47 M : N 一 元 联系 映射 


两 个 外 码 都 被 重 命名 以 表达 它们 在 关系 ADVISING 中 的 角色 。 一 旦 图 3-47 所 示 的 关系 
模式 作为 关系 数据 库 实 现 ， 它 就 可 以 装载 数据 ， 如 图 3-48 所 示 。 
因为 图 3-47 中 的 ADVISING 关系 在 其 两 侧 都 是 可 选 性 的 ， 所 以 在 EMPLOYEE 关系 中 ， 
允许 出 现 没 有 作为 指导 者 的 雇员 ( 1324，Ted)， 以 及 没有 被 指导 的 雇员 ( 1234，Becky ) 。 | 75 | 
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1324 


图 3-48 ”图 3-47 所 示 关 系 模式 的 样本 数据 记录 

















Rob 
1324 |Ted 





3.17.3 1 : 1 一 元 联系 的 映射 


一 对 一 一 元 联系 的 映射 同一 对 多 一 元 联系 的 映射 很 相似 ， 如 图 3-49 中 的 例子 所 示 。 这 
个 例子 描述 了 (在 Secret Santa 节日 里 的 ) 礼物 赠送 事件 ， 在 这 个 事件 中 ， 每 一 个 人 将 赠送 
另 一 个 人 一 份 礼物 ， 并 且 每 一 个 人 会 从 确定 的 人 那里 得 到 礼物 。 


ER 图 












PERSON 


得 到 的 关系 


PersonRNarme 








PERSON 


PersonID 
谢 PersonName 
GetsGiftFrom (FK) 





图 3-49 1 : 1 一 元 联系 映射 


一 旦 图 3-49 所 示 的 关系 作为 关系 数据 库 的 一 部 分 实现 ， 它 就 可 以 装载 数据 ， 如 图 3-50 
所 未 2 


PERSON 





PersoniD 













lena |P222 | 
图 3-50 图 3-49 所 示 关 系 的 样本 数据 记录 


注意 ， 送 礼 关系 在 其 两 侧 都 是 强制 参与 的 ， 每 一 个 人 都 必须 送出 一 份 礼 物 ， 并 且 每 一 个 
人 也 必须 得 到 一 份 礼物 ， 如 图 3-50 中 PERSON 关系 表 中 的 记录 所 示 。 
3.18 ”相同 实体 间 的 多 个 联系 的 映射 


如 第 2 章 所 述 ， 在 ER 图 中 相同 的 实体 之 间 有 多 于 一 个 联系 存在 的 情况 并 不 常见 。 图 3-51 
所 示 的 例子 展示 了 在 相同 实体 间 的 多 个 联系 。 
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ER 图 






PackagelD | 








iN 
SN 


Package Weght 


C EmnName 


得 到 的 关系 模式 
EMPLOYEE PACKAGE 
EmPID PackageID 
EmpName PackageWelght 
EmpPickup (FK ) 


EmpDelivery (FK) 
图 3-51 在 相同 实体 之 间 映 射 多 个 关系 


注意 ，PACKAGE 关系 有 两 个 外 码 ， 它 们 都 参照 于 EMPLOYEE 关系 中 的 主 码 。 两 个 外 
码 都 被 重 命名 以 更 好 地 诠释 EMPLOYEE 关系 的 角色 ， 
一 旦 图 3-51 所 示 的 关系 模式 作为 关系 数据 库 实 现 ， 它 就 可 以 装载 数据 ， 如 图 3-52 所 示 。 


EMPLOYEE PACKAGE 
EmpPickup EmpDelivery 
2345 


P222 1324 
P333 3 2345 
1 













234 [Becry 
45 |Moy 
13455 Fo | 









0 13456 
p555 17 1324 13456 | 


图 3-52 图 3-51 所 示 关 系 模式 的 样本 数据 记录 


3.19 ” 弱 实 体 的 映射 


弱 实 体 的 映射 与 常规 实体 的 映射 很 相似 。 映 射 得 到 的 关系 有 一 个 复合 主 码 ， 这 个 复合 主 
码 由 部 分 标识 符 、 与 属 主 实体 主 码 相连 的 外 码 共 同 来 构成 。 图 3-53 展示 了 弱 实 体 的 映射 。 


ER 图 
BuildingID NoOfFIloors PtNO 


BUILDING 


得 到 的 关系 模式 









BUILDING APARTMENT 


BuildingID AptNo 
NoOfFloors BuildingID (FK) 


NoOfBedrooms 


图 3-53” 弱 实体 映射 


一 旦 图 3-53 所 示 的 关系 模式 作为 关系 数据 库 实现 ， 它 就 可 以 装载 数据 ， 如 图 3-54 所 示 。 

在 图 3-54 中 ,一 个 雇主 实体 实例 可 以 由 多 个 弱 实 体 实例 联合 构成 ， 这 些 弱 实体 都 有 
彼此 不 同 的 部 分 码 值 。 举 例 来 说 ， 在 图 3-54 的 APARTMENT 关系 中 ， 建 筑 A 有 三 个 部 
门 ， 且 这 三 个 部 门 有 不 同 的 部 门 编号 ， 则 部 分 码 AptNo 和 BuildingID 共同 组 成 了 关系 
APARTMENT 的 主 码 。 
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BUILDING 


BuildinglD | NoOfFloors 


A |3 
B | 






帮 作 型 懂 据 大 


APARTMENT 


BuildinglD | AptNo | NoOfBedrooms 





图 3-54 图 3-53 所 示 关 系 模式 的 样本 数据 记录 


弱 实 体 可 以 有 多 个 雇主 实体 。 在 那 种 情况 下 ， 由 弱 实体 映射 得 到 的 关系 有 一 个 复合 主 
码 ， 这 个 复合 主 码 由 部 分 标识 符 及 所 有 雇主 主 码 相 对 应 的 外 码 构 成 。 图 3-55 展示 了 有 两 个 
雇主 实体 的 一 个 暗 实 体 的 映射 。 


ER 图 





得 到 的 关系 模式 








STUDENT COMPLETION CLASS 
StudentID Semester ClassID 
StudentName StudentID (Fk) ClassLevel 

ClassiD (FK) 


Grade 


图 3-55 有 两 个 雇主 实体 的 一 个 弱 实 体 的 映射 


注意 ， 关 系 COMPLETION 有 两 个 外 码 ， 这 两 个 外 码 来 自 于 弱 实 体 COMPLETION 
的 两 个 雇主 实体 映射 而 成 的 关系 。 这 两 个 外 码 与 部 分 标识 符 Semester 一 起 构成 了 关系 
COMPLETION 的 复合 主 码 。 
一 旦 图 3-55 所 示 的 关系 模式 作为 关系 数据 库 实 现 ， 它 就 可 以 装载 数据 ， 如 图 3-56 所 示 。 
STUDENT 
StudentIiD ,StudentName 


L77 | 





CLASS 


ClasslID | ClassLevel 


Si 


1S247 Sophomore 


图 3-56 图 3-55 所 示 关 系 模式 的 样本 数据 记录 

















COMPLETION 

StudentiD | ClassID Semester Grade 
人 且 阴 IS101 | Spring10 D 
Sprmg11 | 


A 
IS241 |Fali2 8B 
zz S347 Sprngis |B 
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在 第 2 章 中 我 们 曾 讲解 过 这 个 实例 ， 学 生 可 能 会 多 次 学 习 同 一 门 课程 直到 他 们 通过 了 最 
低 通 过 分 数 C。 所 以 ， 举 个 例子 ， 如 果 学 生 1111 学 习 了 课程 IS101 三 次 ， 前 两 次 他 得 到 分 
数 D， 第 三 次 他 得 到 分 数 A。 

当 一 个 联系 是 一 对 一 的 联系 时 ， 其 中 的 一 个 弱 实 体 就 没有 部 分 标识 符 。 这 时 ， 由 属 主 实 
体 映 射 得 到 的 关系 的 主 码 就 成 为 了 这 个 弱 实 体 映射 得 到 关系 的 主 码 。 图 3-57 展示 了 将 一 对 
一 联系 中 的 弱 实 体 映 射 为 关系 。 


ER 图 






SpouseBdate 
SPOUSE 





得 到 的 关系 模式 
EMPLOYEE SPOUSE 
EmpiD ErmpID (rx) 
EmpName SpouseName 
SpouseBdate 


z 图 3-57 没有 部 分 标识 符 的 弱 实 体 映射 
因为 实体 SPOUSE 没有 部 分 标识 符 ， 所 以 关系 SPOUSE 中 的 外 码 同时 也 是 其 主 码 ， 而 


并 韭 由 部 分 码 组 成 的 复合 主 码 。 
一 旦 图 3-57 所 示 的 关系 模式 作为 关系 数据 库 实现 ， 它 就 可 以 装载 数据 ， 如 图 3-58 所 示 。 


EMPLOYEE 






Eap 


aq6e [Rob | 


SPOUSE 


reo 


图 3-58 图 3-57 所 示 关 系 模式 的 样本 数据 记录 











3.20 实例 : 将 男 一 个 ER 图 映射 为 关系 模式 


为 了 再 次 说 明 本 章 中 介绍 的 ER 图 - 关系 模式 映射 规则 ， 图 3-59 展示 了 由 HAFH Realty 
Company Property 管理 数据 库 的 ER 图 映射 得 到 的 关系 模式 (这 个 例子 曾 在 前 一 章 的 图 2-38 
中 列举 过 ， 重 放 在 此 以 方便 讲解 ) 。 

这 张 ER 图 有 6 个 实体 以 及 2 个 多 对 多 联系 。 其 中 一 个 实体 有 多 值 属性 。 因 此 ， 映射 得 
到 的 关系 模式 有 9 个 关系 ， 每 个 实体 对 应 为 一 个 联系 ， 每 个 多 对 多 联系 也 对 应 为 一 个 关系 ， 
另外 还 有 一 个 多 值 属 性 对 应 为 一 个 关系 。 

一 旦 图 3-59 所 示 的 关系 模式 作为 关系 数据 库 实 现 ， 它 就 可 以 装载 数据 ， 如 图 3-60 所 示 。 
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INSPECTOR INSPECTING 
InsID InmsID (FK) 
InsNarme BuildingID (FK) 
MANAGER DateLast 
ManagerID BUILDING DateNext 
MFName 
MLName BuildingID APARTMENT CLEANING 
MBDate Ee ew Pr 
_ anagerlD iFx) AptNo SPO 
Maalory kh BuildingID (x) | Ey 
A ANoOfBedrooms SMemberID (Fx) 
MAResBuidingID (Fk) CCID (O)(FK) ome 
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MANAGERPHONE CCID STAFFMEMBER 
MPhone CCName (u) SMemberID 
ManagerilD (Fx) CCindustry SMemberName 


CCLocation 
CCIDReferredBy (DJ(FX) 


图 3-59” 男 一 个 将 ER 图 上 映射 为 关系 模式 的 例子 : HAFH Realty 





INSPECTOR BUILDING 


BNoOfFloors | BManagerID 





图 3-60 ”图 3-59 所 示 HAFH Realty Company Property 管理 数据 库 的 样本 数据 记录 
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ANoOfBedrooms ] CCID 








15-MAY-2012 14-MAY-2013 
17:FEB:2013 17-MAY-.2013 
17:FEB-2013 17-MAY.2013 








MANAGER 








ManagerlD | MFName 


11-JAN.2013 11-JAN.2014 


B3 12-JAN.2013 12:JAN-:2014 


11:JAN-:2013 11.JAN.2014 








MLName MBDate MSalary 
























Borns 





Austin 


George |Sheiman |11JAN.1976 |52000 2000 lB4 | 





20.jJUN-198D | 60000 
30-OCT:1975 | 50000 5000 日 2 


| Grant 


| Lee 












CLEANING 
| 
BuildinglD | AptN | SMemberlD 
CUIGINgIY | APINO 本 >MemDper 二 
日 1 5432 
B1 41 9876 
B2 1 9876 
B2 31 5432 
1 7652 
MANAGERPHONE STAFFMEMBER 


SMemberiD SMemberName 






CORPCLIENT 


CCID CCName |CCIndustry CCLocation 站 

















图 3-60 ( 续 ) 


关系 数据 库 约 束 


如 本 章 前 述 ， 
下 面 两 种 约束 中 的 一 种 : 隐 含 约束 


constraint ) 。 


一 系列 约束 旨 在 形成 令 关 系数 据 库 有 效 的 规则 。 关 系数 据 库 规则 符合 
(implicit constraint) 和 用 户 自 定义 约束 (user defined 


78 | 


了 
80 


80 锚 一 部 分 ” 打 估 型 数据 磁 


3.21.1 隐 含 约束 


@ 关系 模式 的 每 一 个 关系 必须 有 独一无二 的 关系 名 。 
@ 每 一 个 关系 必须 符合 以 下 人 条件 ， 

e@ 每 一 列 必须 有 不 同 的 名 字 。 

@ 不 能 有 完全 相同 的 行 。 

e@ 在 每 一 行 的 每 一 列 中 的 取 值 应 该 是 单 值 。 

@ 每 一 列 中 的 取 值 应 该 服从 预定 义 的 域 (这 一 限制 也 称 为 域 约束 )。 
e@ 列 顺序 无 关 。 
@ 


行 顺序 无 关 。 

。 每 一 个 关系 必须 有 一 个 主 码 ， 主 码 必 须 能 唯一 标识 一 行 记录 (这 一 限制 也 称 为 主 码 
约束 )。 

e@ 主 码 值 不 能 为 空 (实体 完整 性 约束 ) 。 


在 一 个 包含 外 码 的 关系 的 每 一 行 中 ， 人 外 码 的 取 值 要 么 匹配 其 参照 关系 的 主 码 ， 要 公 
为 空 (参照 完整 性 约束 ) 。 


3.21.2 用户 自 定义 约束 


除了 隐 含 约束 外 ， 关 系数 据 库 的 设计 者 也 可 为 数据 库 设 定 特定 的 其 他 约束 ， 这 样 的 约束 
称 为 “用 户 自 定义 约束 ”。 这 里 我 们 列举 一 些 用 户 自 定义 约束 的 例子 (在 第 6 章 中 我 们 将 介 
绍 在 已 执行 的 数据 库 中 采用 用 户 自 定 约 束 的 机 制 )。 

一 个 用 户 自 定义 约束 的 例子 是 指定 ER 图 中 的 可 选 属性 并 将 其 映射 为 关系 模式 。 例 如 ， 
设计 痢 可 以 分 别 指定 实体 EMPLOYEE 以 及 图 3-11 和 图 3-12 所 示 的 EMPLOYEE 关系 中 的 
Bonus 为 可 选 性 。 

男 一 个 用 户 自 定义 约束 的 例子 是 指定 一 个 强制 性 外 码 ， 如 图 3-15 和 图 3-16 中 所 示 。 在 
这 个 例子 中 ， 关 系 EMPLOYEE 中 的 DeptID 列 是 强制 性 的 ， 这 是 因为 ReportsTo 关系 的 1 侧 
是 强制 参与 的 。 

图 3-15 和 图 3-16 中 还 同时 展示 了 男 一 个 用 户 自 定义 约束 ， 即 关系 DEPARTMENT 上 的 
限制 。 该 关系 中 的 每 一 行 必须 被 EMPLOYEE 关系 中 的 一 个 外 码 所 参照 ， 这 是 因为 在 关系 
ReportsTo 中 的 M 侧 是 强制 参与 的 。 注 意 ， 图 3-19 和 图 3-20 中 ， 部 门 实体 的 隶属 关系 在 M 
侧 的 可 选 参 与 ， 将 使 得 同一 约束 不 会 同时 存在 于 图 3-19 和 图 3-20 中 。 

其 他 用 户 自 定义 约束 的 例子 还 包括 图 3-61 和 图 3-62 所 示 的 指定 最 小 和 最 大 基数 。 






从 
STUDENT 用 


得 到 的 关系 模式 
STUDENT ENROLLSIN CLASS 
StudentID StudentID (FK) ClassiD 
StudentName ClassiD (Fx) ClassLevel 


图 3-61 指定 最 小 和 最 大 基数 
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222 |iS401 
cassp | casstevel 13833 | S40| 
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图 3-62 图 3-61 所 示 关系 数据 库 的 样本 数据 记录 


一 旦 图 3-61 所 示 的 关系 模式 作为 关系 数据 库 实现 ， 它 就 可 以 装载 数据 ， 如 图 3-62 所 
示 。 可 以 看 到 ， 在 关系 的 两 侧 ， 所 有 的 记录 都 服从 指定 的 最 大 和 最 小 基数 限制 ， 即 每 门 课程 
有 5 名 学 生 ,， 每 名 学 生 可 以 选 2 门 课程 。 如 前 所 述 ， 我 们 将 在 第 6 章 介 绍 执行 约束 的 机 制 . 

到 目前 为 止 ， 我 们 所 提 到 的 用 户 目 定义 约束 都 将 被 指定 作为 ER 图 的 一 部 分 。 男 外 一 种 
用 户 自 定义 约束 称 为 业务 规则 ( business rule)， 是 在 最 终生 成 的 数据 库 中 来 指定 约束 ， 该 约 
束 并 没有 作为 创建 ER 图 的 一 部 分 。 业 务 规则 可 以 以 注释 的 方式 添加 (如 脚注 、 评 论 、 特 殊 
符号 或 者 其 他 种 类 的 记号 ) 。 

举 个 例子 来 说 ， 一 个 业务 规则 中 指定 任意 雇员 的 薪水 将 不 能 低 于 5 万 美元 或 者 高 于 20 
万 美元 ， 这 个 规则 可 以 以 脚注 的 形式 放 在 一 个 ER 图 中 ， 如 图 3-63 所 示 。 





EMPLOYEE 


* 薪水 值 必须 在 $50000 一 $200000 


得 到 的 关系 
EMPLOYEE 


EmpID 
Salary 


图 3-63 ”薪水 数额 的 业务 规则 


一 旦 图 3-63 所 示 的 关系 模式 作为 关系 数据 库 实现 ， 它 就 可 以 六 EMPLOYEE 


载 数据 ， 如 图 3-64 所 示 。 所 输入 的 记录 同时 也 会 服从 雇员 薪水 限制 和 
的 业务 规则 。 - z 
另外 一 个 例子 如 图 3-65 所 示 ， 一 个 业务 规则 规定 了 学 生 的 毕业 


年 份 不 得 早 于 其 注册 年 份 。 

一 旦 图 3-65 中 的 关系 模式 作为 关系 数据 库 实现 ， 它 就 可 以 装载 
数据 ， 如 图 3-66 所 示 ， 所 输入 的 记录 同时 也 会 服从 学 生 毕 业 年 份 不 ”图 3-64 图 3-63 所 示 
得 早 于 其 注册 年 份 的 业务 规则 。 关系 的 样本 数据 记录 
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实体 


YearEnrolled* 


STUDENT 








YearDferaduation* 





* 毕业 年 份 不 得 早 于 注册 年 份 


得 到 的 关系 
STUDENT 
StudentID 


YearEnrolied 
YearOfGraduation 


图 3-65 ”注册 年 份 和 毕业 年 份 的 业务 规则 


STUDENT 
StudentlD | YearEnrolled | YearOfGraduation 





图 3-66 图 3-65 所 示 关 系 的 样本 数据 记录 


又 如 图 3-67 中 的 业务 规则 ， 规 定 了 每 一 个 学 生 组 织 必须 同时 有 男性 和 女性 会 员 。 


StudentName | OrgLocation 
CScento ) StudentGender CC orp > OrgType 


STUDENT dORGANIZATION 


* 每 一 个 学 生 组 织 必须 同时 有 男性 和 女性 学 生 


ER 图 















得 到 的 关系 模式 
STUDENT BELONGS TO ORGANIZATION 
StudentIiD StudentID (Fk) OrgID 
StudentName OrgID (Fk) OrgLocation 
StudentGender OrgType 


图 3-67 学 生 组 织 中 学 生性 别 的 业务 规则 


一 旦 图 3-67 所 示 的 关系 模式 作为 关系 数据 库 实现 ， 它 就 可 以 装载 数据 ， 如 图 3-68 所 
示 。 输 入 数据 库 的 数据 将 服从 学 生 组 织 必须 有 男性 和 女性 会 员 的 约束 。 代 表 组 织 会 员 的 初始 
数据 一 旦 向 三 张 表格 中 加 载 ， 便 会 有 一 个 机 制 去 验证 数据 是 否 服 从 数据 库 的 业务 规则 。 
在 第 6 章 中 ， 我 们 将 会 进一步 讨论 在 数据 库 中 设 定 业 务 规则 (如 同 以 上 列举 的 实例 中 所 
展示 的 那样 ) 的 意义 和 方法 。 
这 一 章 介绍 了 有 关 关 系数 据 库 建 模 的 最 基础 的 问题 ， 下 面 的 内 容 将 涉及 一 些 数据 库 建 模 
的 其 他 问题 。 


STUDENT BELONGSTO 
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StudentlID | StudentName ] li 



























OrgType 


| Student Hall | Chaniy 
| Damen Hall Sport 
| Student Hall | Charity 



















图 3-68 图 3-67 所 示 关 系数 据 库 的 样本 数据 记录 


3.22 问题 说 明 : 关联 实体 映射 


在 第 2 全 中 我 们 曾 提 到 关联 实体 这 个 ER 建 模 概念 ， 可 以 将 其 视 作 男 一 种 描述 多 对 多 关 

系 的 方法 。 所 以 ,关联 实体 将 采用 和 多 对 多 关系 一 样 的 方法 映射 为 关系 数据 库 构 件 。 在 这 两 

种 方法 中 ， 者 会 创建 一 个 额外 的 关系 ， 这 个 关系 中 有 两 个 外 码 ， 分 别 指向 由 涉及 多 对 多 联系 

的 两 个 实体 映射 得 到 的 关系 。 | 83 | 
医 | 3-69 展示 了 一 个 多 对 多 联系 及 其 关联 实体 形式 是 如 何以 相同 的 方式 喘 射 为 关系 模式 的 。 


ER 图 (M : N 版 本 ) 


人 


ProductlD Price TID Time 


PRODUCT DB SoldVia | SALETRANSACT 
7 ee N 


同一 个 ER 图 (关联 实体 版 本 ) 


productID Price Cm ) Time 


PRODUCT < > 区 人 < SALETRANSACT 


得 到 的 关系 模式 (上面 两 个 ER 图 中 的 任何 一 个 ) 





PRODUCT SOLDVIA (or LINEITEM) SALETRANSCT 
ProductID ProductID ‘Fx) TID 
ProductName TID (FK) Time 
Price NoOfitems Date 


图 3-69 多 对 多 联系 及 其 关联 实体 形式 以 相同 的 方式 映射 为 关系 模式 


3.23 ”问题 说 明 : 三 元 联系 映射 
在 第 2 音 中 曾 提 到 三 元 联系 是 多 对 多 对 多 的 联系 。 三 元 联系 的 映射 与 多 对 多 联系 的 映射 


84 之 一 部 分 挫 作 型 梁 据 条 


非常 相似 。 一 个 带 有 若干 外 码 的 新 关系 将 被 创建 ， 这 些 外 码 都 来 自 参 与 的 关系 ， 它 们 共同 组 
成 这 个 新 关系 的 主 码 。 图 3-70 展示 了 三 元 联系 的 映射 。 


ER 图 


SupplerID CC ProductiD productName 
SUPPLIER PRODUCT 
Provides < > 


区 DR 
一 PROVIDING 
3 


i 





isincluded 


得 到 的 关系 模式 


SUPPLIER PROVIDING PRODUCT 


SupplierID ProductID 
ProductName 


SupplierName 
















SuppiierID ,Fr) 


ComponentID IFK 
ProductID (FA 












COMPONENT 
ComponentID 


ComponentName 


图 3-70 三 元 联系 的 映射 
一 旦 图 3-70 所 示 的 关系 模式 作为 关系 数据 库 实 现 ， 它 就 可 以 加 载 数据 ， 如 图 3-71 所 示 。 


SUPPLIER PROVIDING 


SupplierID SupplierName SupplierID | ProductiD | ComponentID 
S2 


Sl 
53 Compy S3 
ProductName 


RP? Tricycle 
3 


Pa lscoer 


COMPONENT 


ComponentlD | ComponentName 


G 
Handle 
Seat 


图 3-71 图 3-70 所 示 关 系数 据 库 的 样本 数据 记录 
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在 本 例 中 ， 图 3-71 中 的 记录 表明 三 个 供应 商 提 供 了 自行 车 的 三 个 部 件 ， 并 且 供 应 商 Al 
还 专门 为 三 轮 车 和 轻便 摩托 车 提供 部 件 。 


3.24 ”问题 说 明 : 设计 者 创建 的 主 码 和 自动 编号 选项 


很 多 现代 数据 库 设计 和 DBMS 工具 为 数据 库 设计 者 提供 了 一 个 自动 编号 数据 类 型 选项 ， 
这 个 选项 可 以 自动 地 在 一 列 中 生成 连续 数值 型 数据 值 。 这 个 选项 最 常见 的 用 途 是 创建 设计 者 
设 定 的 主 码 列 。 举 例 来 说 ， 考 虑 以 下 需求 : 

e@ 医院 数据 库 将 保持 对 病 患 的 跟踪 。 

e@ 对 于 每 一 个 病 患 ， 医 院 将 保持 对 其 唯一 的 SSN ( 即 出 生日 期 和 姓名 ) 的 掌握 。 

基于 这 种 关系 的 实体 及 其 映射 得 到 的 关系 如 图 3-72 所 示 。 

PatientID 列 并 没有 在 需求 中 写 明 。 但 是 ,在 与 终端 用 户 讨 论 后 ， 设 计 者 决定 不 使 用 病 
患 的 SSN 作为 主 码 ， 而 是 创建 另外 一 列 PatientID 作为 关系 PATIENT 的 主 码 ， 并 且 用 自动 
增长 的 整数 数据 来 装载 关系 表 。 首 先 ， 需求 被 更 改 如 下 : 

@ 医院 数据 库 将 保持 对 病 患 的 跟踪 . 

e 对 于 每 一 个 病 患 ， 医院 将 保持 对 其 唯一 的 SSN 以 及 唯一 的 PatientID 的 掌握 

( PatientID 是 一 个 简单 的 整数 ， 每 一 个 新 病 患 都 会 被 赋 子 紧 随 当前 已 分 配 整 数 之 后 的 
一 个 整数 ). 

如 图 3-73 所 示 ， 根据 修改 过 的 需求 ，ER 图 也 需 做 相应 的 修改 。 结 果 映 射 得 到 的 关系 中 

新 增 了 PatientID 这 一 列 . 


实体 





实体 







PatientID 


PATIENT 







patientName 


PATIENT 





PatientName 


PatientBdate 
PatientBdate 





i 得 到 的 关系 
得 到 的 关系 ee 
PATIENT PatientID 

SSN SSN (U) 

PatientName PatientName 

patientBdate patientBdate 
图 3-72 实体 及 其 得 到 的 关系 PATIENT 图 3-73 实体 以 及 添加 了 设计 者 创建 的 

主键 列 以 后 的 关系 PATIENT 


在 关系 PATIENT 的 实现 过 程 中 ， 目 动 编号 数据 类 型 被 选择 作为 PatientID 列 的 值 。 关 系 
PATIENT 中 的 数据 如 图 3-74 所 示 。SSN、PatientBdate 以 及 PatientName 这 三 列 的 数据 需要 
输入 。PatientID 列 的 数值 则 由 数据 库 系 统 来 自动 生成 。 


PATIENT 
SSN PatientName | PatientBdate 
1 | 123:44-4444 


567-88-8888 2/2/1931 
912-33-3333 4/3/1951 


图 3-74 图 3-73 所 示 关 系 的 样本 数据 记录 
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3.25 ”问题 说 明 : ER 建 模 和 关系 建 模 


一 般 教 材 中 的 数据 库 建 模 方法 是 在 收集 需求 的 同时 进行 ER 建 模 ， 然 后 将 ER 模型 映射 
为 关系 模式 。 但 是 ,很 多 从 业 人 员 更 倾向 于 直接 从 需求 中 创建 关系 模式 ， 采 用 这 种 方式 时 ， 
ER 建 模 的 阶段 就 被 省 略 了 。 

有 经 验 的 数据 库 建 模 者 常 感到 他 们 的 专业 程度 已 经 处 于 相当 高 的 水 平 ， 不 再 需要 针对 每 
一 个 数据 库 都 创建 两 种 类 型 的 图 表 ， 他们 觉得 看 着 需求 立刻 创建 出 可 以 被 DBMS 软件 包 所 
执行 的 关系 模式 是 更 可 取 的 做 法 ， 这 种 做 法 直接 跳 过 了 ER 图 建 模 这 一 阶段 。 

这 种 简化 的 数据 库 建 模 方法 乍 一 看 非常 有 吸引 力 ， 因 为 它 可 以 使 目的 变 得 简单 并 且 节 和 省 
时 间 。 尽 管 如 此 ,我 们 还 是 给 出 一 些 反对 这 种 做 法 的 建议 ， 原 因 如 下 : 

e ER 模型 更 有 利于 将 需求 可 视 化 。 

e 一 些 确 定 的 概念 只 有 在 ER 图 中 才能 得 到 可 视 化 的 图 形 描 述 。 

e 在 ER 图 中 每 一 个 属性 只 被 提 到 一 次 。 

e ER 模型 是 更 好 的 交流 和 文档 化 工具 。 

下 面 将 就 上 述 各 原因 进行 讨论 . 

1. ER 模型 更 有 利于 将 需求 可 视 化 

所 有 的 需求 都 能 以 直接 明了 的 形式 在 ER 图 中 得 到 显 式 的 可 视 化 表达 。 换 句 话 说， 有 一 
ee 

让 我 们 看 看 图 3-32。 举 例 来 说 ， 个 产品 都 通过 一 笔 或 多 笔 交 易 销 售 ， 而 每 一 笔 销 
售 交 易 都 包括 一 个 或 多 个 产品 ” a a its ie 同样 的 需求 也 可 由 关 
系 SOLDVIA 来 描述 ， 包 括 两 个 连接 到 关系 0 和 PRODUCT 的 外 码 。 
对 于 一 个 有 经 验 的 关系 数据 库 建 模 者 来 说 ， 这 个 关系 模式 已 经 可 以 很 好 地 可 视 化 上 述 需 求 
etic teehee Mate ed 

2. 一 些 确定 的 概念 只 有 在 ER 图 中 才能 得 到 可 视 化 的 图 形 描述 

一 些 需求 中 的 确定 概念 ， 只 能 通过 ER 图 而 不 能 通过 关系 模式 进行 图 形 化 的 可 视 描述 。 

让 我 们 看 看 图 3-15。ER 图 将 “每 一 个 部 门 必须 至 少 有 一 个 隶属 雇员 ”这 一 需求 捕捉 并 
可 视 化 了 ， 而 同样 的 需求 将 不 能 在 关系 模式 中 可 视 化 。 

另外 一 个 能 通过 ER 网 而 不 能 通过 关系 模式 可 视 化 的 例子 是 复合 属性 ， 如 图 3-6 所 示 。 

3. 在 ER 图 中 每 一 个 属性 只 被 提 到 一 次 

看 看 那些 对 应 于 结果 数据 库 的 属性 ， 由 于 ER 图 中 每 个 属性 只 被 提 到 一 次 ， 所 以 ER 图 
是 更 简单 的 方法 。 

让 我 们 看 看 图 3-59。BuildingID 是 实体 BUILDING 的 一 个 属性 ， 它 在 ER 图 中 只 被 
提 到 过 一 次 ， 同 ER 图 中 出 现 的 其 他 属性 一 样 。 而 在 关系 模式 中 ，BuildingID 属性 在 关系 
BUILDING 中 提 到 一 次 ， 并 且 作 为 外 码 在 其 他 三 个 不 同 的 关系 中 出 现 ， 共 被 提 到 4 次 。 一 
个 有 经 验 的 数据 库 建 模 者 也 许可 以 将 原始 属性 和 其 外 码 区 分 开 来 。 但 是 ， 一 个 普通 的 商业 用 
户 在 面临 满 是 外 码 以 及 同一 属性 的 多 个 实例 的 关系 模式 时 可 能 会 月 演 。 

4. ER 模型 是 更 好 的 交流 和 文档 化 工具 

由 于 上 述 各 种 原因 ， 在 数据 库 设 计 的 所 有 环节 中 ， 采 用 ER 图 都 比 采 用 关系 模式 更 加 便 
于 交流 。ER 图 更 有 利于 解释 、 讨 论 以 及 验证 需求 和 最 终 得 到 的 数据 库 ， 并 更 有 利于 数据 库 
开发 过 程 以 及 后 续 的 数据 库 执行 过 程 。 


总 结 


除了 3.2 节 的 表 3-1 外 ， 表 3-2 和 表 3-3 总 结 了 本 章 介 绍 的 基本 的 关系 概念 。 






唯一 属性 
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表 3-2 关系 数据 库 的 基本 约束 总 结 


约束 描述 
命名 关系 关系 模式 中 的 每 个 关系 都 必须 有 不 同 的 名 称 
命名 列 在 一 个 关系 中 ， 每 一 列 都 必须 有 不 同 的 名 称 
行 唯一 在 一 个 关系 中 ， 每 一 行 必 须 唯 一 
列 值 为 单 值 在 一 个 关系 的 每 一 行 中 ， 每 一 列 的 值 必须 为 单 值 
域 约束 在 一 个 关系 中 ， 每 一 列 的 所 有 值 必须 来 自 预先 定义 的 域 
列 的 顺序 在 一 个 关系 中 ， 列 的 顺序 是 无 关 的 
行 的 顺序 在 一 个 关系 中 ， 行 的 顺序 是 无 关 的 
主 码 约束 每 -一 个 关系 必须 有 一 个 主权 ， 主 码 是 -- 列 (或 一 组 列 )， 其 值 对 于 每 一 行 是 唯一 的 
实体 完整 性 约束 主 凤 列 不 能 为 空 值 
外 码 外 位 是 关系 和 中 的 一 列 ， 写 参照 另 一 个 〈( 被 参照 的 ) 关系 的 主 码 
参照 完整 性 约束 在 包含 外 码 的 关系 中 ， 每 一 行 的 外 人 码 取 值 要 么 对 应 其 参照 关系 中 的 主 码 取 值 ， 要 么 为 空 





映射 为 关系 
当时 六 关系 的 列 
买 体 的 一 个 唯一 属性 映射 为 主 码 ， 如 果 还 有 其 他 的 唯一 属性 ， 则 被 标记 为 唯一 (但 不 作为 主 码 ) 





表 3-3 ”将 关系 模式 映射 为 规则 的 基本 ER 总 结 
映射 规则 






复合 属性 只 有 复合 属性 的 各 个 部 分 映射 为 关系 的 列 (复合 属性 本 身 不 作 映 射 ) 

i 只 有 它 的 各 个 部 分 被 映射 。 如 果实 体 中 没有 单 值 唯 一 属性 ， 则 复合 属性 的 各 部 分 变 为 复合 主 码 。 
四 否则 ， 将 各 部 分 标记 为 唯一 (不 作为 主 码 ) 

ee 映射 为 带 有 复 台 主 码 的 单独 的 关系 。 复 合 主 码 是 由 表示 多 值 属性 的 列 和 外 码 组 成 的 ， 该 外 码 参 

照 了 表示 包含 多 值 属性 实体 的 关系 的 主 码 

派生 属性 不 作 映 射 

可 选 属性 映射 为 一 列 ， 标 记 为 可 选 

pe 属于 M 侧 的 实体 所 映射 得 到 的 关系 有 一 个 外 码 ， 这 个 外 码 对 应 于 由 1 侧 的 实体 映射 得 到 的 关系 


中 的 主 码 
映射 为 带 有 两 个 外 码 的 新 关系 ， 这 两 个 外 码 对 应 于 多 对 多 关系 中 两 个 实体 的 主 码 。 这 两 个 外 码 


“下 一 下 联系 | 构成 这 个 表示 多 对 多 联系 的 新 关系 的 复合 主 码 。 如 果 存 在 属性 ， 则 联系 的 属性 映射 为 新 关系 的 列 


1 ; M 一 元 联系 | 一 对 多 一 元 联系 实体 映射 得 到 的 关系 中 包含 一 个 外 码 ， 并 且 这 个 外 码 对 应 于 关系 自身 的 主 码 
M : N 一 元 联系 映射 为 璐 有 两 个 外 码 的 新 关系 ， 这 两 个 外 码 都 对 应 于 多 对 多 关系 中 实体 的 主 码 。 每 一 个 外 码 都 
将 作为 新 关系 中 复合 主 码 的 一 部 分 
与 映射 M : N 联系 的 规则 相同 。 创 建 一 个 带 有 外 码 的 新 关系 ， 外 码 对 应 于 表示 参与 关联 实体 的 
关联 实体 
关系 的 主 码 
弱 实 体 映射 为 带 有 一 个 外 码 的 新 关系 ， 外 码 对 应 于 表示 主 实体 的 关系 的 主 码 。 由 部 分 码 映 射 得 到 的 列 
和 主 实体 的 外 码 一 起 作为 复合 主 码 (如 果 没 有 部 分 码 ， 外 码 单 独 作为 主人 码 ) 
三 元 联系 与 关联 实体 的 映射 规则 相同 
关键 术语 


business rule (业务 规则 )，81 
column ( 列 )，57 
composite primary key (复合 主 码 )，61 


attribute (of a relation)( (关系 的 ) 属性 )，57 
autonumber data type (自动 编号 数据 类 型 )，84 
bridge relation ( 桥 关 系 )，66 
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designer-created primary key (设计 者 创建 的 主 
码 )，84 

domain constraint( 域 约束 )，79 

entity integrity constrain ( 实体 完整 性 约束 )，62 

foreign key( 外 人 码 )，63 

implicit constrain ( 隐 含 约束 )，78 

primary key ( 主 码 )，5S9 

primary key constrain ( 主人 码 约 束 )，79 

record (记录 )，57 

referential integrity constrain (参照 完整 性 约束 )， 
69 

referential integrity constrain line ( 参 喇 完整 性 约 


复 习题 


Q3.1 一 张 表 成 为 一 个 关系 必须 满足 哪些 条 件 ? 
Q3.2 什么 是 主 码 ? 


束 连 线 )，69 

relation (关系 )，57 

relation database (关系 数据 库 )，57 

relation database model (关系 数据 库 模 型 )，57 

relational DBMS，RDBMS (关系 数据 库 管 理 系 
统 )，57 

relation schema (关系 模式 )，57 

relation table (关系 表 )，57 

row( 行 )，57 

table ( 表 )，57 

tuple (元 组 )，57 

user-defined constrain (用 户 自 定义 约束 )，78 


Q3.3 ”如 何 将 一 个 县 有 普通 属性 的 普通 实体 映射 为 一 个 关系 ? 


Q3.4 如 何 将 一 个 复合 属性 映射 为 一 个 关系 ? 


Q3.5 如 何 将 一 个 唯一 的 复合 属性 映射 为 一 个 关系 ? 


Q3.6 如何 将 一 个 可 选 性 属性 映射 为 一 个 关系 ? 
Q3.7 给 出 实体 完整 性 约束 的 定义 。 
Q3,8 ”什么 是 外 公 ? 


Q3.9 ”如 何 将 两 个 实体 间 的 一 对 多 联系 映射 为 关系 模式 ? 
Q3.10 ”如 何 将 两 个 实体 间 的 多 对 多 联系 映射 为 关系 模式 ? 
Q3.11 如 和 何 将 两 个 实体 间 的 一 对 一 联系 映射 为 关系 模式 ? 


Q3.12 给 出 参照 完整 性 约束 的 定义 。 

Q3.13 如何 将 候选 码 映 射 为 关系 ? 

Q3.14 如 何 将 多 值 属性 映射 为 关系 模式 ? 
Q3.15 ”如何 将 派生 属性 映射 为 关系 模式 ? 
Q3.16 ”如 何 将 一 对 多 一 元 联系 映射 为 关系 模式 ? 
Q3.17 如何 将 多 对 多 一 元 联系 映射 为 关系 模式 ? 
Q3.18 ”如何 将 一 对 一 一 元 联系 映射 为 关系 模式 ? 
Q3.19 ”如何 将 弱 实 体 映 射 为 关系 模式 ? 

Q3.20 如何 将 三 元 联系 映射 为 关系 模式 ? 
Q3.21 列 出 关系 数据 库 模型 的 隐 含 约束 。 
Q3.22 ”什么 是 用 户 自 定义 约束 ? 

Q3.23 ”什么 是 业务 规则 ? 

Q3.24 什么 是 设计 者 所 创建 的 主 码 ? 


Q3.25 ”反对 不 创建 ER 模型 而 直接 创建 关系 数据 库 模 型 的 主要 原因 是 什么 ? 


练习 


E3.1 给 出 两 个 实例 ， 一 个 是 属于 关系 的 表 ， 另 一 个 是 不 属于 关系 的 表 。 
E3.2 给 出 两 个 实例 ， 一 个 是 服从 实体 完整 性 约束 的 关系 ， 另 一 个 是 违反 实体 完整 性 约束 的 关系 。 


BE3.3 


B35 


E36 
By 
B3.8 
E3.9 
E3.10 
EA] 
E31 
B313 
E3.14 
B33 
E316 
Ba 


小 案例 1 
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给 出 两 个 实例 ， 一 个 是 服从 参照 完整 性 约束 的 关系 ， 男 一 个 是 违反 参照 完整 性 约束 的 关系 ， 
E3.4 将 E2.1 中 的 实体 映射 为 关系 。 
将 以 下 练习 题 中 的 ER 图 映射 为 关系 模式 ， 并 满足 以 下 要 求 : 


B33a 


E3.5b 


E3.Sc 


E.G 


E3.3e 


B33 


E3.3E 


RS 


B33 


E3.5j 


对 于 E2.2a， 在 每 一 个 关系 中 给 出 几 个 记录 ， 
还 是 在 M 侧 的 可 选 参 与 。 


对 于 E2.2b， 在 每 一 个 关系 中 给 出 几 个 记录 ， 


还 是 在 M 侧 的 强制 参与 。 
对 于 E2.2c， 在 每 一 个 关系 中 给 出 几 个 记录 ， 
还 是 在 M 侧 的 强制 参与 。 


对 于 E2.2d， 在 每 一 个 关系 中 给 出 几 个 记录 ， 


还 是 在 M 侧 的 可 选 参与 。 
对 于 E2.2e， 在 每 一 个 关系 中 给 出 几 个 记录 ， 
还 是 在 另 一 侧 的 可 选 参 与 。 
对 于 E2.2f， 在 每 一 个 关系 中 给 出 几 个 记录 、 
还 是 在 其 他 边 的 强制 参与 。 


对 于 E2.2g， 在 每 一 个 关系 中 给 出 几 个 记录 ， 


还 是 在 其 他 边 的 强制 参与 ， 


对 于 E2.2h， 在 每 一 个 关系 中 给 出 几 个 记录 ， 


还 是 在 其 他 边 的 可 选 参与 。 


并 且 为 这 些 取 值 标明 是 在 1 侧 的 可 选 参与 
并 且 为 这 些 取 值 标明 是 在 1 侧 的 可 选 参与 
并 且 为 这 些 取 值 标明 是 在 1 侧 的 强制 参与 
并 且 为 这 些 取 值 标明 是 在 1 侧 的 可 选 参与 
并 且 为 这 些 取 值 标明 是 在 1 侧 的 强制 参与 
并 且 为 这 些 取 值 标 明 是 在 1 侧 的 强制 参与 
并 且 为 这 些 取 值 标 明 是 在 1 侧 的 可 选 参与 


并 且 为 这 些 取 值 标明 是 在 1 侧 的 强制 参与 


对 于 E2.2i， 在 每 一 个 关系 中 给 出 几 个 记录 ， 并 且 为 这 些 取 值 标明 是 在 1 侧 的 强制 参与 还 


是 在 其 他 边 的 强制 参与 - 


对 于 E2.2j， 在 每 一 个 关系 中 给 出 几 个 记录 ， 并 且 为 这 些 取 值 标明 是 在 1 侧 的 可 选 参与 还 


是 在 其 他 边 的 可 选 参与 。 


将 E2.3 中 的 ER 图 映射 为 关系 ， 在 得 到 的 关系 中 给 出 几 个 记录 。 

将 E2.4 中 的 实体 映射 为 关系 ， 在 得 到 的 关系 中 给 出 几 个 记录 。 

将 E2.5 中 的 实体 映射 为 关系 ， 在 得 到 的 关系 中 给 出 几 个 记录 。 

将 E2.6 中 的 实体 映射 为 关系 ， 在 得 到 的 关系 中 给 出 几 个 记录 。 

将 E2.7 中 的 实体 映射 为 关系 ,在 得 到 的 关系 中 给 出 几 个 记录 。 

将 E2.8 中 的 实体 映射 为 关系 ， 在 得 到 的 关系 中 给 出 几 个 记录 。 

将 E2.9 中 的 实体 映射 为 关系 ， 在 得 到 的 关系 中 给 出 几 个 记录 。 

将 E2.10 中 的 ER 图 映射 为 关系 ， 在 得 到 的 关系 中 给 出 几 个 记录 。 

将 基于 E2.11 中 的 需求 得 到 的 ER 图 映射 为 关系 ， 在 得 到 的 关系 中 给 出 几 个 记录 。 
将 基于 E2.12 中 的 需求 得 到 的 ER 图 映射 为 关系 ， 在 得 到 的 关系 中 给 出 几 个 记录 。 
将 基于 E2.13 中 的 需求 得 到 的 ER 图 映射 为 关系 ， 在 得 到 的 关系 中 给 出 几 个 记录 。 


构造 一 个 服从 某 业 务 规则 的 ER 图 实例 ， 将 这 个 ER 图 映射 为 关系 并 给 出 几 个 记录 ， 


们 服从 业务 规则 。 
小 案例 


Investco Scout 


以 说 明 它 


将 Investco Scout Funds 数据 库 (由 第 2 章 的 小 案例 1 创建 ) 的 ER 图 映射 为 关系 模式 。 
小 案例 2 Funky Bizz 
将 Funky Bizz Operations 数据 库 (由 第 2 章 的 小 案例 2 创建 ) 的 ER 图 映射 为 关系 模式 。 
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小 案例 3 Snooty Fashions 
将 Snooty Fashions Operations 数据 库 (由 第 2 章 的 小 案例 3 创建 ) 的 ER 图 映射 为 关系 模式 。 
小 案例 4 Signum Libri 
将 Signum Libri Operations 数据 库 (由 第 2 章 的 小 案例 4 创建 ) 的 ER 图 映射 为 关系 模式 。 
小 案例 5 ExoProtect 
将 ExoProtect Employees ”Computers 数据 库 (由 第 2 章 的 小 案例 5 创建 ) 的 ER 图 映射 为 关系 模式 。 


小 案例 6 Jones Dozers 
将 Jones Dozers Sales and Rentals 数据 库 (由 第 2 章 的 小 案例 6 创建 ) 的 ER 图 映射 为 关系 模式 。 


小 案例 7 Midtown Memorial 
将 Midtown Memorial Patients Drug Dispense 数据 库 (由 第 2 章 的 小 案例 7 创建 ) 的 ER 图 映射 为 
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更 新 操作 、 蝎 新 异常 与 规范 化 


4.1 引言 

在 前 面 的 章节 中 ， 我 们 讲述 了 关系 数据 库 的 基本 概念 以 及 如 何 将 ER 图 映射 成 关系 模 
式 。 本 章 我 们 将 会 集中 关注 以 下 操作 : 回 关 系 中 插入 数据 、 修 改 关 系 中 已 有 的 数据 、 从 关系 
中 删除 数据 。 这 三 个 操作 合 起 来 统称 为 更 新 操作 (update operation ) 。 

如 果 一 个 关系 中 存储 了 多 个 重复 实例 (例如 ， 一 个 购物 表 包 含 多 行 同一 顾客 地 址 )， 这 些 
重复 的 实例 便 是 元 余数 据 (redundant data)。 不 恨 的 数据 库 设 计 会 导致 关系 中 包含 不 必要 的 苑 
余数 据 ， 并 致使 更 新 操作 出 现 某 些 异 常 。 本 章 将 会 评 细 地 说 明 这 些 更 新 异常 (update anomaly )。 

关系 数据 库 可 能 包含 见 余 数据 并 致使 更 新 异常 ， 而 规范 化 (normalization ) 过 程 可 用 于 
改进 关系 数据 库 的 设计 。 规 范 化 过 程 将 从 关系 数据 库 中 删除 不 必要 的 元 余数 据 ， 以 此 来 消除 
更 新 异常 的 可 能 性 。 本 音 将 会 详细 地 描述 规范 化 过 程 . 


4.2 更 新 操作 


用 户 可 以 从 关系 中 检索 数据 ， 或 者 更 新 关系 中 的 数据 。 数 据 检索 操作 通常 也 称 为 读 操作 
( read operation)， 用 于 从 关系 中 读 取 数据 。 更 新 操作 也 叫 写 操作 ( write operation)， 用 于 更 
新 关系 中 的 数据 内 容 。 

关系 中 的 数据 内 容 有 三 种 更 新 方式 : 回 关 系 中 输入 新 数据 、 从 关系 中 移 除 数据 以 及 改变 
关系 中 已 有 的 数据 。 因 此 ， 对 应 有 三 种 更 新 操作 : 

es 插入 操作 ( insert operation ) : 用 于 回 关 系 中 





输入 新 数据 。 插入 前 
e 删除 操作 ( delete operation ) : 用 于 从 关系 中 EMPLOYEE 
移 除 数据 。 
e 修改 操作 (modify operation ): 用 于 改变 关系 
中 已 有 的 数据 。 
55,000 
下 面 将 分 别 给 出 三 种 更 新 操作 的 例子 。 证 
4.2.1 插入 操作 实例 插入 一 条 记录 





EMPLOYEE 


Emplp | EmpName |Salory 
2 [Becy |$75.000 
2345 [Moy |$50.000 
3456 |Rob |$55.000 





开始 时 ， 图 4-1 中 的 关系 EMPLOYEE 有 三 条 
记录 。 捅 人 一 条 新 记录 以 后 ， 关 系 EMPLOYEE 中 
有 四 条 记录 。 

4.2.2 ”删除 操作 实例 
开始 时 ， 图 4-2 中 的 关系 EMPLOYEE 有 三 条 图 4-1 插入 操作 
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记录 ， 删 除 一 条 记录 以 后 .关系 EMPLOYEE 中 有 两 条 记录 。 
删除 前 


EMPLOYEE 










Molly 






2345 | 
3456 |Rob |$55.000 _ 





删除 一 条 记录 
删除 后 
EMPLOYEE 


arpo |erone [een 


3456 Rob $55,000 





图 4-2 删除 操作 


4.2.3 修改 操作 实例 


图 4-3 中 的 关系 EMPLOYEE 有 三 条 记录 。 雇员 Molly 这 条 记录 的 Salary 的 值 从 $50 000 
变 成 了 $60 000。 执行 完 这 个 操作 以 后 ， 关 系 EMPLOYEE 仍然 有 三 条 记录 ,但 是 其 中 一 条 
记录 被 修改 了 。 修改 前 
EMPLOYEE 





4.2.4 关于 更 新 操作 术语 的 说 明 


在 实际 工程 中 以 及 相关 文献 中 ， 术 十 “更 新 操作 ” 
通常 有 两 种 用 法 。 一 种 用 法 是 将 “更 新 操作 ” 视 为 插 
入 、 删 除 和 修改 操作 的 集合 ， 另 一 种 用 法 是 将 “更 新 
操作 ” 仅 视 为 修改 操作 。 这 两 种 用 法 都 很 常见 ， 分 清 ”修改 后 
这 两 种 用 法 很 重要 。 通 常 根 据 术 语 所 处 的 上 下 文 ， 可 
以 很 清楚 地 确定 到 撒 是 哪 种 用 法 。 在 本 章 中 ， 我 们 


将 术语 “更 新 操作 ” 视 为 插入 、 删 除 和 修改 操作 的 | 
仍 人 入 


4.3 更 新 异常 图 4-3 ”修改 操作 

在 包含 元 余 (不 必要 的 重复 ) 数据 的 关系 中 ， 三 种 更 新 操作 均 可 能 引起 更 新 异常 。 因 
此 ， 共 有 三 种 类 型 的 更 新 异常 : 插入 异常 、 删 除 异 常 和 修改 异常 。 我 们 将 使 用 关系 AD 
CAMPAIGN MIX 作为 例子 来 说 明 三 种 类 型 的 更 新 异常 ， 该 关系 来 自 下 面 将 要 介绍 的 Pressly 
广告 代理 的 实际 场景 。 在 本 章 的 后 续 部 分 ， 这 个 例子 还 将 用 来 说 明 晴 数 依 赖 和 规范 化 过 程 。 









pID EmpName | Salary 
3456 |Rob /|$55.000 | 


修改 一 条 记录 














EMPLOYEE 


er 






4.3.1 实例 场景 
Pressly 广告 代理 通过 多 种 宣传 模式 来 管理 广告 宣传 活动 。 每 种 宣传 模式 都 有 一 个 模式 


日 在 第 $ 草 将 会 看 到 ，SQL 命令 UPDATE 是 修改 操作 的 命令 ， 这 是 将 术语 “更 新 操作 ” 视 为 修改 操作 。 
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标识 符 ModeID (如 1、2、3 )， 它 表示 某 种 媒体 (如 电视 、 广 播 、 平 面 媒体 ) 的 特定 覆盖 范 
围 (如 本 地 、 全 国 )。 例如， 使 用 电视 媒体 覆盖 本 地 区 ， 该 宣传 模式 的 ModeID 值 为 1; 使 用 
电视 媒体 覆盖 全 国 ， 该 宣传 模式 的 ModeID 值 为 2。 

Pressly 广告 代理 管理 的 每 个 广告 宣传 活动 都 有 唯一 的 标识 符 、 唯 一 的 名 字 、 开 始 日 期 、 
持续 时 间 和 一 个 宣传 经 理 (包括 经 理 的 名 字 和 唯一 的 标识 符 )。 每 个 广告 可 以 有 多 种 不 同 的 宣 
传 模式 。 当 使 用 多 种 不 同 的 宣传 模式 进行 广告 宣传 时 ， 广 告 宣传 的 预算 会 按 百 分 比分 配 到 每 种 
模式 上 。 当 只 使 用 一 种 宣传 模式 进行 广告 宣传 时 ， 广 告 宣传 的 预算 100% 分 配 到 这 种 模式 上 。 


4.3.2 ”实例 关系 (包含 元 余数 据 ) 


Pressly 广告 代理 例子 中 使 用 单个 关系 AD CAMPAIGN MIX 来 存储 数据 。 该 例子 中 的 关 
系 是 一 个 包含 元 余数 据 的 关系 ， 因 此 容易 产生 更 新 异常 。 
关系 AD CAMPAIGN MIX 由 以 下 的 列 组 成 : 


AdCampaignID 广告 宣传 活动 标识 符 ， 每 个 广告 宣传 活动 有 唯一 的 值 
宣传 活动 名 称 ， 每 个 广告 宣传 活动 有 唯一 的 名 称 
StartDate 广告 宣传 活动 的 开始 日 期 (可 以 有 多 个 广告 宣传 活动 在 同一 日 期 开始 ) 
Duration 广告 宣传 活动 的 持续 天 数 (可 以 有 多 个 广告 宣传 活动 持续 天 数 相同 ) 
宣传 经 理 的 标识 符 ， 每 个 宣传 经 理 有 唯一 的 值 (每 个 广告 宣传 活动 只 有 一 个 宣传 经 理 ; 一 个 
宣传 经 理 可 以 管理 多 个 宣传 活动 ) 
CampaignMgrName 宣传 经 理 的 名 字 (多 个 宣传 经 理 可 能 有 相同 的 名 字 ) 


AdCampaignName 广告 
告 


CampaignMerID 


ModeID 宣传 模式 标识 符 ， 每 个 宣传 模式 有 唯一 的 值 
宣传 模式 的 媒体 类 型 (每 个 宣传 模式 只 有 一 种 媒体 ,但 同一 种 媒体 可 以 在 多 个 宣传 模式 中 
Media 使 用 ) 
Range 宣传 模式 的 覆盖 范围 (每 个 宣传 模式 只 有 一 种 覆盖 范围 ， 但 同一 种 覆盖 范围 可 以 在 多 个 宣传 
模式 中 使 用 ) 
BudgetPctg 广告 宣传 活动 为 某 种 宣传 模式 分 配 的 预算 百分比 


图 4-4 展示 了 关系 AD CAMPAIGN MIX 中 的 记录 。 一 个 广告 宣传 活动 可 以 有 多 种 模式 ， 
这 个 关系 中 的 每 条 记录 描述 了 一 次 宣传 活动 的 一 种 模式 。 因 此 ， 能 够 唯一 区 分 关系 中 的 每 一 行 
的 属性 ， 是 由 宣传 活动 的 唯一 属性 和 模式 的 唯一 属性 构成 的 组 合 属性 。 模 式 本 身 只 有 一 个 唯 
一 属性 : 唯一 的 ModeID。 然 而 ， 每 个 广告 宣传 活动 有 两 个 唯一 属性 : 唯一 的 AdCampaignID 
和 唯一 的 AdCampaignName。 组 合 码 AdCampaignID 、ModeID 被 选 作 这 个 关系 的 主 码 。 因 此 ， 
组 合 码 AdCampaignName、ModeID 是 这 个 关系 的 一 个 候选 码 ， 未 被 选 作 主 码 。 


AD CAMPAIGN MIX 


AdCampaignID | AdCampaignName | StartDate | Duration | Campaign | Campaign | ModelD | Media | Range BudgetPctg 
MgrID MgrName 


1 |SummerFun13 1662013 |12days |CMI00 |Robera |1 [lV liocal | 50% 
Sue [1 Im liocal | 60% 
人 










CD 










222 | SummerZing13 6.8.2013 |30days |CM1i01 |Sue 
333 |FalBalt3 16.9.2013 | 12 days | CM102 
3 | FallBall13 6.9.2013 | 12 days CM102 John 4 Radio | National 







339 
44 MmmSyer |69203 | Sdays [CMi03 |Nancy |6 [Prm [Navona, [io | 


图 4-4 关系 AD CAMPAIGN MIX 
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非 码 列 ( nonkey column) 是 指 关 系 中 既 不 是 主 码 也 不 是 候选 码 的 列 。 在 关系 AD 
CAMPAIGN MIX 中 ，StartDate 、Duration 、CampaignMSgIrID 、CampaignMSgrName 、Media 、 
Range 和 BudgetPctg 都 是 非 码 列 。 

关系 AD CAMPAIGN MIX 的 这 种 设计 会 使 它 包 含 元 余数 据 。 例 如 ， 宣 传 活动 222 的 名 
称 、 开 始 日 期 和 持续 时 间 重 复 了 三 次 ， 宣 传经 理 CM100 的 名 字 重 复 了 三 次 ， 宣 传 模 式 1 的 
媒体 和 和 获 盖 范 围 重复 了 两 次 。 关 系 AD CAMPAIGN MIX 中 这 些 元 余数 据 的 例子 见 图 4-5. 


AD CAMPAIGN MIX 


| StartDate | Duration | Campaign | Campaign | ModelD | Media | Range BudgetPctg 
MarlD MgrName 


111 [mr ni 6.6.2013 | 12 days IcCM100 |Robera | | SOm% 
i [Sommerun13 1662013 [12 ueye ewnoo propaia 2 ~ Tv TNatone TY io — 
222 SummerZing13 |6.8.2013 |30days [CMio! [Sue [IV Itocal 
222 Summerzing13 |6.8.2013 |30days |gMi0! |Sue |3 |Radio |Local \ | \30% | 
222 |Summerzing13 |6.8.2013 |30days |PM101 |Sue 5 |Print |local \ | \o% | 
333 | FalBall13 69.2013 |12days |CMI02 lJohn |3 |Rado lloca NB | 
333 - FallBal13 692013 |12days /|CM102 |John 14 |Rado |National N\ 20% | 
a | wmsyela 69aoi3|sdas /lomo [mo 6 |Pinl [Newore [Roy — 
5 | Mm [00203 |aows / [6 IRopoms 9 [Rooo [Loco jigw | 





| 
| 
汪 + 宣传 模式 1 的 媒体 和 逆 盖 范围 重复 了 两 次 


宣传 经 理 CM100 的 名 字 重 复 了 三 次 
宣传 完 2 的 名 称 、 开 始 日 期 和 持续 时 间 重 复 了 三 次 


图 4-5 关系 AD CAMPAIGN MIX 中 均 余 数据 的 例子 
由 于 这 种 设计 允许 元 余数 据 出 现 ， 因 此 关系 AD CAMPAIGN MIX 会 产生 下 面 几 个 例子 
所 示 的 更 新 异 第 ， 见 图 4-6. 


AD CAMPAIGN MIX 


[nr pied A StartDate Duration De Campaign | ModelD | Media Range BudgetPctg 
' MgriD MgrName 


1 CMi00 |Robera |? ao sow 























SumimcerFun1 3 15 62013 12 Ee 
la i wzing13 1682013 [30days |CMio! |Sue eo 
222 ‘Su Immerzing13 6.82013 30 days |CM101 | Sue x [Local | | 30% | 
2 Summerzmnal3 -a 2013 ae emo! | Sue I5 |pm | 10% 
333 FallBail13 692013 12days | | CM102 |Jonn CN 
人 [mmsiers sszoa [sdas | [emioa [Naey Je [im [Neon [Toow | 
2 RN 
| 修改 异常 的 例子 : 


| 为 了 将 宣传 活动 222 的 持续 时 间 
从 30 天 改 为 43 天 ， 必 须要 修改 


删除 异常 的 例子 : 三 条 记录 插入 异常 的 例子 : 
不 能 在 不 删除 宣传 经 理 CM103 和 宣 不 能 在 不 插入 一 个 使 用 模式 7 
传 模式 6 的 情况 下 ， 删 除 宣传 活动 的 实际 宣传 活动 的 情况 下 ， 插 
444 入 新 的 宣传 模式 7 


图 4-6 关系 AD CAMPAIGN MIX 中 的 更 新 异常 
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4.3.3 插入 异常 

插入 异常 (insertion anomaly) 是 指 当 用 户 想 要 插 外 某 一 真实 世界 中 实体 的 数据 时 ， 还 必 
须 输入 另 一 个 真实 世界 中 的 实体 的 数据 。 

例如 ， 假 设 这 个 广告 代理 决定 在 以 后 的 宣传 活动 中 使 用 一 种 新 的 宣传 模式 : (7， 
Internet，National) 。 但 这 种 新 的 模式 并 不 能 直接 输入 到 关系 AD CAMPAIGN MIX 中 ， 用 
户 还 必须 输入 一 个 使 用 该 模式 的 宣传 活动 。 然 而 ， 此 时 并 没有 使 用 模式 7 的 宣传 活动 。 由 于 
AD CAMPAIGN MIX 是 这 个 数据 库 中 唯一 的 关系 ， 所 以 关于 宣传 模式 7 的 数据 将 不 会 存在 
于 数据 库 中 ， 直 到 它 被 搬 人 到 关系 AD CAMPAIGN MIX 中 。 而 将 宣传 模式 7 的 信息 作为 一 
条 记录 插入 到 关系 AD CAMPAIGN MIX 中 ， 让 其 余 的 列 为 室 ， 这 种 做 法 是 不 可 行 的 ， 因 为 
这 种 插入 操作 将 会 导致 主 码 AdCampaignID 的 值 为 NULL， 而 这 违反 了 实体 完整 性 约束 。 


4.3.4 删除 异常 

删除 异常 ( deletion anomaly) 是 指 当 用 户 想 要 删除 某 一 真实 世界 中 实体 的 数据 时 ， 还 必 
须 删 除 另 一 个 真实 世界 中 实体 的 数据 。 

例如 ， 假 设 该 广告 代理 决定 取消 广告 宣传 活动 444， 并 在 关系 AD CAMPAIGN MIX 中 
删除 宣传 活动 444 的 相关 记录 这 一 删除 行为 同时 也 会 在 关系 AD CAMPAIGN MIX 中 删除 
宣传 模式 (6，Print，National)， 因 为 此 时 没有 其 他 宣传 活动 使 用 该 模式 。 又 由 于 宣传 模式 
的 信息 只 能 在 关系 AD CAMPAIGN MIX 中 找到 (因为 数据 库 中 没有 其 他 的 关系 )， 所 以 ， 该 
删除 操作 最 终 将 会 导致 宣传 模式 6 的 信息 从 数据 库 中 消失 。 然 而 ， 该 广告 代理 在 将 来 的 宣传 
活动 中 可 能 还 会 使 用 宣传 模式 6， 因 此 在 数据 库 中 保留 宣传 模式 6 的 信息 将 是 必要 的 。 

另外 ， 在 关系 AD CAMPAIGN MIX 中 删除 宣传 活动 444 的 相关 记录 ， 同 时 也 会 删除 宣 
传经 理 ( 103，Nancy)， 因 为 没有 其 他 宣传 活动 由 该 宣传 经 理 管理 。 由 于 宣传 经 理 的 信息 只 
能 在 关系 AD CAMPAIGN MIX 中 找到 ， 该 删除 操作 最 终 将 会 导致 宣传 经 理 103 的 信息 从 数 
据 库 中 消失 。 然 而 ， 该 广告 代理 将 来 可 能 还 会 使 用 宣传 经 理 103 来 管理 广告 宣传 活动 ， 因 此 
在 数据 库 中 保留 宣传 经 理 103 的 信息 是 必要 的 。 


4.3.5 修改 异常 
修改 异常 (modification anomaly) 是 指 当 用 户 要 修改 某 一 值 时 ， 同 样 的 修改 操作 需要 重 
复 多 次 。 


例如 ， 假 设 该 广告 代理 决定 将 宣传 活动 222 的 持续 时 间 从 30 天 延长 到 45 天 。 该 操作 需 
要 在 3 条 不 同 的 记录 上 进行 。” 

可 能 存在 更 新 异常 的 关系 (例如 关系 AD CAMPAIGN MIX) 可 以 通过 规范 化 过 程 来 改 
进 。 大 多 数 的 规范 化 过 程 是 基于 对 函数 依赖 概念 的 理解 进行 的 。 因 此 ， 在 介绍 规范 化 过 程 之 
前 ， 我 们 先 来 讨论 函数 依赖 。 


4.4 函数 依赖 
函数 依赖 ( functional dependency) 是 指 关 系 的 每 条 记录 中 一 列 〈 或 几 列 ) 的 值 唯 一 决定 


日 ”这些 修改 操作 只 进行 了 一 部 分 的 情况 下 (如 3 次 修改 操作 只 进行 了 1 次 修改 操作 ) 会 发 生 错误 ， 关 系 中 将 会 
有 不 正确 的 数据 ， 该 宣传 活动 的 持续 时 间 将 会 有 多 个 版 本 。 这 会 导致 数据 一 致 性 问题 ， 见 第 6 章 的 讨论 。 
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该 条 记录 的 男 一 列 的 值 。 例 如 ， 图 4-7 的 客户 信息 表 包 括 列 ClientID 和 Client Name。 

列 ClientID 消 数 确定 列 ClientName， 因 为 某 一 
ClientID 的 值 只 能 和 一 个 ClientName 的 值 相 关联 。 CHENT 
男 一 方面 ， 列 ClientName 不 能 消 数 确定 列 ClientID ， He | leon 
因为 某 一 ClientName 的 值 可 以 与 多 个 ClientID 的 值 
相关 联 。 例 如 ， 在 关系 CLIENT 中 ， 有 两 个 不 同 的 
客户 有 同样 的 名 字 William， 而 每 个 客户 有 不 同 的 
ClientID., 


函数 依赖 的 表示 方法 
有 几 种 表示 上 盟 数 依赖 的 方式 - 一 种 方式 是 用 以 下 符号 表示 困 数 依赖 : 








Wiilarm 


图 4-7 关系 CLIENT 


A—B 
箭头 左边 的 列 〈 或 几 列 ) 确定 右边 的 列 (或 几 列 )。 例 如 ， 图 4-7 中 的 函数 依赖 可 以 表示 为 : 


ClientlD — ClientName 
另 一 种 表示 函数 依赖 的 方式 是 图 形 化 的 ， 如 国生 
图 4-8 所 示 ， 在 表 的 列 上 用 一 个 科 头 表示 同样 的 图 数 ClientID | ClientName ... | 


依赖 。 图 4-8 ”函数 依赖 的 图 形 化 描述 
4.5 ”函数 依赖 实例 
最 开始 ， 在 图 4-4 的 关系 AD CAMPAIGN MIX 中 ， 我 们 可 以 识别 出 以 下 函数 依赖 的 集合 : 


在 关系 AD CAMPAIGN MIX 中 最 开始 识别 出 的 了 消 数 依赖 的 集合 


(集合 1) CampaignMgriD 一 CampaignMgrName 
(集合 2 ) ModelD 一 Media, Range 


(集合 3) AdCampaignlD 一 AdCampalgnName, StartDate, Duration, CampalignMgrlD， 
CampaignMgrName 


(集合 4 ) AdCampaignName 一 AdCampaigniD, StartDate, Duration, Campaign MgrlD, 
<CampalgnMgrName 
(集合 5) AdCampalgnID, ModelD 一 AdCampalgnName, StartDate, Duration, CampalgnMgrlD， 
CampaignMgrName, Media, Range, BudgetPctg 
(集合 6) AdCampaignName, ModelD 一 AdCampalgnlD, StartDate, Duration, CampalgnMgriD， 
campaignMgrName, Media, Range, BudgetPctg 





下 面 将 详细 讨论 关系 AD CAMPAIGN MIX 中 这 些 函 数 依赖 的 集合 。 

(集合 1)CampaignMgrlD 一 CampalgnMgrName 
CampaignMgrID 晒 数 确定 CampaignMgrName。 在 关系 AD CAMPAIGN MIX 的 记录 中 ， 
CampaignMgrID 的 每 个 特定 的 值 总 是 和 相同 的 CampaignMgrName 的 值 一 起 出 现 。 例 如 ， 在 关 
系 AD CAMPAIGN MIX 中 ，CampaignMgrID 的 值 CM100 出 现在 多 条 记录 中 ,但 它 总 是 和 
CampaignMgrName 的 值 Roberta 一 起 出 现 。 这 对 于 任意 CampaignMgrName 都 是 正确 的 ， 每 个 
CampaignMgrID 的 值 总 是 只 与 一 个 CampaignMgrName 的 值 同 时 出 现 。 反 过 来 则 不 成 立 ， 因 为 
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我 们 可 以 雇佣 名 字 相 同 的 两 个 宣传 经 理 (例如 ， 我 们 可 以 雇佣 男 一 个 叫 Roberta 的 宣传 经 理 )， 
当然 ， 他 们 将 会 有 两 个 不 同 的 CampaignMegrID 的 值 。 一 个 CampaignMgrName 的 值 不 一 定 只 
和 一 个 CampaignMgrID 的 值 相 关联 ， 因 此 CampaignMgrName 不 能 曙 数 确定 CampaignMgrID . 

(集合 2 ) ModelD 一 Media, Range 
每 个 ModeID 的 值 总 是 只 与 一 个 Media 的 值 以 及 一 个 Range 的 值 相 关联 。 例如， 在 关系 AD 
CAMPAIGN MIX 中 ，ModeID 的 值 3 出 现 了 多 次 、 但 它 总 是 与 同一 Media 的 值 Radio 以 及 
同一 Range 的 值 Local 相关 联 。 为 一 方面 ， 单独 的 Media 或 者 Range 的 值 能 与 多 个 不 同 的 
ModeID 的 值 相关 联 、 因 此 列 Media 和 列 Range 都 不 能 确定 列 ModeID . 

(集合 3 ) AdCampalgnlD 一 AdCampaignName, StartDate, Duration, 

CampalgnMgrID, CampalgnMgrName 

AdCampaignID 的 每 个 值 总 是 只 与 AdCampaignName、StartDate 、Duration 、Campaign- 
MegrID 和 CampaignMgrName 的 一 个 值 相 关联 。 例 如 ，AdCampaignID 的 值 333 在 关系 AD 
CAMPAIGN MIX 中 出 现 多 次 ， 但 它 总 是 与 相同 的 StartDate 的 值 6.9.2013 相关 联 。 每 个 单 
独 的 AdCampaignID 的 值 总 是 只 与 一 个 StartDate 的 值 相关 联 。 反 过 来 则 不 成 立 ， 因 为 两 个 
或 多 个 不 同 的 宣传 活动 可 能 在 同一 日 期 开始 (例如 ， 宣 传 活动 333、444 和 555 在 同一 日 
期 开始 )。 一 个 StartDate 的 值 不 一 定 只 与 一 个 AdCampaignlD 的 值 相 关联 、 因 此 StartDate 
不 能 曙 数 确定 AdCampaignID。 列 Duration 、CampaignMgrID 和 CampaignMgrName 情况 
相似 ， 它 们 也 不 能 函数 确定 AdCampaignID。 男 一 方面 ， 列 AdCampaignName 可 以 确定 列 
AdCampaignID， 见 集合 4。 

(集合 4) AdCampaignName 一 AdCampaignlD, StartDate, Duration, 

CampaignMgrlD, CampaignMgrName 

AdCampaignName 的 每 个 值 总 是 只 与 AdCampaignID、StartDate、Duration、CampaignMerID 
和 CampaignMgrName 的 一 个 值 相关 联 。 例 如 ，AdCampaignName 的 值 FallBalll3 在 关系 
AD CAMPAIGN MIX 中 出 现 多 次 ,但 它 总 是 与 相同 的 StartDate 的 值 6.9.2013 相关 联 。 每 个 
单独 的 AdCampaignName 的 值 总 是 只 与 一 个 StartDate 的 值 相关 联 。 反 过 来 则 不 成 立 ， 两 个 
或 多 个 不 同 的 宣传 活动 可 能 在 同一 日 期 开始 (例如 ， 宣 传 活动 FallBalll3、AutmnStyle13 和 
AutmnColors13 在 同一 日 期 开始 )。 一 个 StartDate 的 值 不 一 定 只 与 一 个 AdCampaignName 的 
值 相 关联 ， 因 此 StartDate 不 能 函数 确定 AdCampaignName。 列 Duration 、CampaignMgrID 和 
CampaignMegrName 情况 相似 ， 它 们 不 能 咀 数 确定 AdCampaignID。 另 一 方面 ， 列 AdCampaignID 
可 以 确定 列 AdCampaignName， 见 集合 3。 


(集合 5) AdCampalgnID, ModelD 一 AdCampalgnName, StartDate, Duration, 
CampalgnMgrID, CampaignMgrName, 
Media, Range, BudgetPctg 


在 任何 关系 中 ， 主 码 总 是 能 子 数 确定 关系 中 的 其 他 列 。 因 此 ,在 关系 AD CAMPAIGN 
MIX 中 ， 组 合 主 码 AdCampaignID 和 ModeID 能 蚂 数 确定 关系 中 其 他 所 有 的 列 ， 每 个 
AdCampaignID 和 ModeID 的 组 合 的 值 都 只 与 AdCampaignName、StartDate 、Duration 、 
CampaignMsgrID 、CampaignMsgrName 、Media 、Range 和 BudgetPctg 的 一 个 值 相 关联 ，。 
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(集合 6)AdCampaignName, ModelD 一 AdCampaignlD, StartDate, Duration, 
CampalgnMadgriD, CampalgnMgrName， 
Media, Range, BudgetPctg 


在 任何 关系 中 ， 候 选 码 总 是 能 函数 确定 关系 中 的 其 他 列 。 因 此 ， 在 关系 AD CAMPAIGN 
MIX 中 ， 组 合 候选 码 AdCampaignName 和 ModeID 能 函数 确定 关系 中 其 他 所 有 的 列 。 每 
个 AdCampaignID 和 ModeID 的 组 合 的 值 者 只 与 AdCampaignName、StartDate、Duration、 
CampaignMgrID 、CampaignMgrName、Media、Range 和 BudgetPctg 的 一 个 值 相 关联 。 


4.6 ”简化 函数 依赖 


数据 库 的 规范 化 过 程 是 基于 分 析 数 据 库 中 每 个 关系 的 限 数 依赖 而 进行 的 。 有 些 函 数 依 正 
与 数据 库 的 规范 化 过 程 不 相关 ， 因 此 我 们 可 以 只 选择 对 于 进行 规范 化 过 程 必 需 的 函数 依赖 进 
行 描 述 分 析 。 这 会 减少 需要 考虑 的 了 汝 数 依赖 的 数目 ， 以 此 来 简化 规范 化 过 程 。 

例如 ,平凡 函数 依赖 (trivial functional dependency) 是 指 一 个 属性 (或 属性 集 ) 函数 确 
定 它 自己 (例如 ，A 一 A 或 A, B 一 A，B) 或 它 的 子 集 (例如 ，A，B 一 A)。 平凡 函数 依 
赖 没 有 出 现在 识别 出 的 隐 数 依赖 集合 中 。 找 述 平凡 函数 依 束 是 不 必要 的 ， 并 且 会 导致 需要 考 
碟 的 了 肾 数 依赖 的 集合 增 大 且 变 得 复杂 。 例 如 ， 在 上 面 例子 的 函数 依赖 的 集合 中 加 入 平凡 肾 数 

CampaignMgriD, CampaignMgrName 一 CampalgnMgrName 
这 意味 着 增加 不 必要 的 混乱 。 

除了 平 几 函数 依赖 外 ， 在 不 丢失 规范 化 过 程 所 需 信 息 的 情况 下 ， 还 有 其 他 类 型 的 函数 依 
赖 可 以 从 图 形 化 的 描述 中 删 去 。 特 别 是 下 面 将 要 说 明 的 增 广 函数 依赖 ( augmented functional 
dependency) 和 等 价 函 数 依 赖 (equivalent functional dependency)， 可 以 将 其 从 已 有 的 函数 依 
赖 的 集合 中 去 掉 ， 以 简化 规范 化 过 程 。 


4.6.1 增 广 函数 依赖 

假设 Joe 比 Sue 更 重 是 一 个 真 语 铅 。 在 这 种 情况 下 ， 拿 着 一 袋 土 豆 的 Joe 比 拿 着 同样 一 
袋 土豆 的 Sue 更 重 也 是 一 个 真 语句 ， 但 是 这 在 原 语句 的 基础 上 增加 了 不 必要 的 语句 。 增 广 函 
数 依赖 的 概念 与 之 类 似 。 

假设 关系 中 存在 以 下 函数 依赖 : 

A—B 
这 种 情况 下 ， 包 含 一 个 已 有 函数 依赖 的 函数 依赖 ， 如 下 所 示 


A,C—B 
这 就 是 一 个 增 广 阴 数 依赖 。 

为 了 使 规范 化 过 程 清晰 和 简单 ， 增 广 防 数 依赖 通常 不 出 现在 函数 依赖 集合 中 。 因 此 ， 集 
合 5 应 该 写成 下 面 的 形式 : 

(集合 5) AdCampaignID, ModelD 一 BudgetPctg 


因为 在 这 个 集合 中 所 有 其 他 的 函数 依赖 都 是 不 必要 的 函数 依赖 。 
这 是 因为 函数 依赖 (来自 集合 3 ) 
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AdCampalgnID — AdCampaignName, StartDate, Duration, CampaignMgrlD， 
CampalgnMgrName 
存在 ， 孙 数 依赖 
AdCampaignID, ModelD 一 AdCampaignName, StariDate, Duration, Campalgn- 
MgrlD, Campaign MgrName 
是 在 此 基础 上 增补 的 ， 因 此 应 该 从 集合 5 中 删除 . 
同样 。 由 于 晴 数 依赖 (来 日 集合 2) 


ModelD — Media, Range 
人 存在， 函数 依赖 
AdCampaignID, ModelD 一 Media, Range 
是 在 此 基础 上 增补 的 ， 因 此 应 该 从 集合 5 中 删除 。 


4.6.2 等 价 函 数 依 赖 
考虑 下 面 这 种 简单 的 场景 ， 英 国情 报 局 虚拟 人 物 James Bond 也 被 叫做 特工 007 是 一 个 
真 霹 句 。 这 种 情 训 下， 和 下面 两 个 语句 ，James Bond 是 英国 情报 局 最 著名 的 虚拟 人 物 和 特工 
007 是 英国 情报 局 最 著名 的 虚拟 人 物 ， 是 两 个 等 价 的 语句 。 等 价 函数 依赖 的 概念 与 之 类 似 。 
假设 关系 中 存在 以 下 贞 数 依赖 : 


A—B 
B—A 


这 种 情况 下 ，A 能 确定 的 B 也 能 确定 ( 反 过 来 也 一 样 )。 因此，A 一 B 和 B 一 A 是 等 价 
函数 依赖 。 此 外 


A —» B, X 
B—A,X 


是 等 价 孙 数 依赖 ， 并 日 


Y,A—B8,X 
Y B 一 A,X 


也 是 等 价 水 数 依 赖 。 
为 了 使 规范 化 过 程 清 晰 和 简单 ， 当 存在 多 个 等 价 函 数 依赖 时 ， 我 们 可 以 只 选 其 中 一 个 。 


因为 函数 依赖 


AdcampaignlD 一 AdCampaignName 


和 函数 依赖 
AdCampaignName 一 AdCampalgnlD 


是 等 价 的 ， 所 以 集合 3 与 集合 4 是 等 价 的 集合 ， 集 合 5 与 集合 6 也 是 等 价 的 集合 。 因 此 ， 可 


以 从 集合 中 删除 集合 4 和 集合 6。 
以 下 是 对 于 关系 AD CAMPAIGN MIX 最 终 描述 的 简化 后 的 函数 依赖 的 集合 列表 。 
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在 关系 AD CAMPAIGN MIX 中 简化 后 的 孙 数 依赖 的 集合 


( 集合 1) CampaignMgrlD 一 CampaignMgrName 
( 集合 2) ModelD 一 Media, Range 
( 集合 3) AdCampalgnlID 一 AdCampaignName, StartDate, Duration, CampaignMgriD, 


CampaignMarName 
(集合 5) AdCampaignlD, ModelD 一 BudgetPctg 
集合 5: 通过 删除 包含 在 集合 2 和 集合 3 中 的 增 广 取 数 依赖 来 进行 简化 
集合 4: 与 集合 3 等 价 . 删除 
集合 6: 与 集合 5 等 价 ， 删 除 





图 4-9 也 展示 了 简化 后 的 函数 依赖 的 集合 。 








AdCampaignID | AdCampaignName | StartDate Duration | CampaignMgriD CampaignMgrName | ModelD | Media Range BudgetPctg 


图 4-9 关系 AD CAMPAIGN MIX 中 的 函数 依赖 


4.7 函数 依赖 类 型 


作为 典型 规范 化 过 程 榴 图 数 依 赖 可 以 分 成 三 类 : 部 分 函数 依赖 ( partial functional 
dependency)、 完 全 函数 依赖 ( full key functional dependency) 和 传递 函数 依赖 (transitive 
functional dependency )。 下 面 将 分 别 举例 说 明 这 三 种 函数 依赖 。?° 


4.7.1 部 分 函数 依赖 


部 分 函数 依赖 ( partial functional dependency) 是 指 关 系 的 一 列 函 数 依 赖 于 组 合 主 码 的 一 
部 分 。 

只 有 组 合 主 码 才 有 不 同 的 组 成 部 分 ， 而 单列 的 主 码 则 没有 。 因 此 ， 部 分 函数 依赖 只 出 现 
在 关系 中 有 组 合 主 码 的 情况 下 。 

图 4-9 中 ， 卫 数 依赖 


AdCampaignlD 一 AdCampalgnName, StartDate, Duration, CampaignMgriD, 
CampalgnMgrName 
ModelD 一 Media, Range 


是 部 分 晴 数 依赖 。AdCampaignID 是 主 码 AdCampaignID 和 ModeID 的 一 部 分 ， 因 此 
AdCampaignID 锋 数 确定 关系 中 ， 其 他 列 的 函数 依赖 是 部 分 阻 数 依 赖 。 同 样 ，ModelID 也 是 
主公 AdCampaignID 和 ModeID 的 一 部 分 ， 因 此 ModeID 晒 数 确定 关系 中 ， 其 他 列 的 困 数 依 
赖 是 部 分 图 数 依赖 。 


4.7.2 完全 函数 依赖 
完全 函数 依赖 ( full key functional dependency) 是 指 主 码 函 数 确 定 关系 中 的 其 他 列 ， 并 


昌 在 本 章 中 ,我 们 给 出 了 部 分 隐 数 依赖 和 完全 哨 数 依赖 的 简单 定义 ， 该 定义 足够 使 人 清晰 地 理解 典型 的 规范 化 
过 程 。 附 录 B 给 出 了 更 加 精确 的 定义 ， 这 些 定义 更 加 复杂 ， 但 是 对 于 大 多 数 真实 世界 的 应 用 场景 来 说 是 不 必 
要 的 。 
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且 主 码 的 任意 一 部 分 都 不 能 单独 确定 同样 的 列 。 

如 果 关 系 中 有 一 个 单独 ( 非 组 合 ) 的 主 码 ， 那 么 该 主 码 完 全 吗 数 确定 关系 中 其 他 的 所 有 
列 。 然 而 ， 如 果 关 系 中 有 一 个 组 合 码 ， 该 组 合 码 的 一 部 分 可 以 部 分 确定 关系 中 的 列 ， 那 么 这 
个 主 码 就 不 是 完全 咀 数 确定 这 些 部 分 列 了 。 在 图 4-9 中 ， 郴 数 依赖 

AdCampalgnID, ModelD 一 BudgetPctg 


是 一 个 完全 函数 依赖 。 主 码 的 列 AdCampaignID 和 ModeID 一 起 困 数 确定 列 BudgetPctg。 主 
码 的 任何 一 部 分 都 不 能 部 分 确定 列 BudgetPctg。 


4.7.3 ”传递 函数 依赖 


传递 函数 依赖 (transitive functional dependency) 是 指 非 码 列子 数 确定 关系 中 的 其 他 非 码 列 。 

图 4-9 中 ， 卫 数 依赖 

CampaignMgrlD 一 Campaign MgrName 
是 一 个 传递 归 数 依赖 。CampaignMgrID 是 一 个 非 码 列 , CampaignMgrName 也 是 一 个 非 码 列 。 
因此 ，CampaignMegrID 函数 确定 CampaignMgrName 是 一 个 传递 师 数 依赖 。 

图 4-10 指出 了 关系 AD CAMPAIGN MIX 中 的 完全 函数 依赖 、 部 分 也 数 依赖 和 传递 函数 
依赖 。 


完全 丽 数 依赖 










BudgetPcto 


AdCampaignName StartDate Duration 0 CampaignMgrName | ModelD Media Range 


传递 隧 数 依赖 






部 分 函数 依赖 
图 4-10 关系 AD CAMPAIGN MIX 中 的 函数 依赖 (指明 类 型 的 ) 


4.8” 男 一 个 函数 依赖 实例 


识别 部 分 艺 数 依赖 、 完 全 肾 数 依赖 和 传递 了 数 依赖 对 于 进行 典型 的 规范 化 过 程 是 十 分 重 
要 的 。 为 了 加 强 对 这 些 概念 的 理解 ， 我 们 看 一 下 男 一 个 关系 以 及 它 的 晴 数 依赖 。 

Central Plane 大 学 使 用 一 个 单独 的 关系 RECRUITING 来 存储 数据 。 对 于 Central Plane 
大 学 的 每 个 招生 人 员 ， 关 系 RECRUITING 列 出 了 他 从 某 一 城市 招收 的 学 生 数 目 ， 以 及 
Central Plane 大 学 招收 学 生 所 在 城市 和 州 的 人 口 数 。 关 系 RECRUITING 由 以 下 列 组 成 。 


RecruiterID 招生 人 员 标 识 符 ， 每 个 招生 人 员 有 一 个 唯一 的 值 

RecruiterName 招生 人 员 名 字 

StatusID 招生 人 员 状 态 标 识 符 (每 个 招生 人 员 只 有 一 种 状态 ) 

StatusName 招生 人 员 状 态 描述 

City 招生 人 员 招 收 学 生 的 城市 名 称 (一 个 招生 人 员 可 以 在 多 个 城市 招收 学 生 ， 同 一 个 城市 也 可 以 有 


多 个 招生 人 员 招 收 学 生 。 多 个 城市 可 以 有 相同 的 名 称 ， 但 是 一 个 州 内 的 城市 必须 有 不 同 的 名 称 。) 
State 城市 所 在 州 
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( 续 ) 

StatePopulation 州 人 口 数 
CityPopulation 城市 人 口 数 
NoOfRecruits 某 一 招生 人 员 在 某 一 城市 的 招生 数目 

图 4-11 展 示 了 关系 RECRUITING 和 关系 中 的 记录 。 该 关系 的 主人 码 是 组 合 码 
RecruiterID 、City 和 State。 关 系 中 的 每 条 记录 描述 了 一 个 招生 人 员 在 一 个 城市 的 招生 记录 。 
因此 ， 由 招生 人 员 的 唯一 属性 以 及 城市 和 该 城市 所 在 州 的 唯一 属性 构成 的 组 合 属性 ， 能 唯一 
确定 关系 中 的 一 行 。RecruiterID 可 以 区 分 出 一 个 招生 人 员 ，City 和 State 合 起 来 可 以 区 分 一 


个 城市 (单独 的 City 列 是 不 够 的 ， 因 为 不 同 的 州 内 可 以 有 相同 的 城市 名 称 ， 如 图 4-11 所 示 )。 


RECRUITING 


en [Rociorame Soup Sas [ay [See [Sawnoponon [Opopuaton [Woomera 
Ra ae |P memalpanTme|kocdod fi 2900000 [340000 117 | 
Ra aa [CN |cowacor |Evgene |oR |aeoooo [a60000 | 
Ra Mans liF memaFuiTms [RocWora [i [iaeooooo |340000 4 | 
Ra wan IF memarFuTme [GrandRapas IM | sao0000 | 11000 |9 
Rom coN |oomro |Gadkapds|w |eso0000 [ie0000 | | 


图 4-11 关系 RECRUITING 


关系 RECRUITING 有 以 下 了 哨 数 依 赖 : 


RecruiterlD — RecruiterName, StatusiD, Status 
StatuslD —> Status 

State —> StatePopulation 

City, State 一 CityPopulation 

RecruiterlD, City, State 一 NoOfRecruits 


图 4-12 也 展示 了 关系 RECRUITING 中 的 函数 依赖 。 


| 人 TC [Ct  | 


图 4-12 关系 RECRUITING 中 的 函数 依赖 




























RecruliteriD 一 RecruiterName, StatuslD, Status 


是 一 个 部 分 函数 依赖 ， 因 为 RecruiterID 是 主人 码 RecruiterID 、City 、State 的 一 部 分 ， 并 且 郴 
数 确 定 列 RecruiterName、StatusID 和 Status 。 


StatusID — Status 
是 一 个 传递 明 数 依赖 ， 因 为 非 码 列 StatusID 可 以 确定 非 码 列 Status。 
City, State 一 CityPopulation 


是 一 个 部 分 函数 依赖 因为 City 、State 是 主 码 RecruiterID、City、State 的 一 部 分 ， 并 且 函 
数 确定 列 CityPopulation。 
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State 一 StatePopulation 
一 个 部 分 了 清 数 依 赖 ， 因 为 State 是 主 码 RecruiterID、City、State 的 一 部 分 ， 并 且 函 数 确定 
列 StatePopulation. 
RecruiterlD, City, State 一 NoOfRecruits 
是 一 个 完全 函数 依赖 ， 因 为 主 码 RecruiterID、City、State 可 以 确定 列 NoOfRecruits。 


4.9 规范 化 


正如 引言 中 提 到 的 ， 规 范 化 可 用 来 改进 数据 库 表 的 设计 过 程 。 该 过 程 基于 范式 (normal 
form) 来 进行 ， 每 个 范式 包含 一 系列 表 需 要 满足 的 条 件 。 范 式 有 很 多 种 ， 其 中 最 基本 的 是 第 
一 范式 (first normal form，1NF)、 第 二 范式 ( second normal form，2NF) 和 第 三 范式 (third 
normal form，3NF )。 从 较 低 的 范式 到 较 高 的 范式 ， 范 式 的 条 件 越 来 越 严 格 。 

规范 化 过 程 需 要 检查 每 个 表 以 确认 它 是 否 满 足 某 一 范式 。 如 果 满 足 某 一 范式 ， 则 继续 检 
查 它 是 否 满 足下 一 个 更 高 的 汇 式 。 如果 不 满足 某 一 范式 ， 则 应 该 采取 相应 的 方法 将 该 表 转 换 
成 几 个 表 ， 以 满足 这 个 范式 。 

规范 化 到 第 一 范式 就 是 把 非 关系 表 转 换 成 关系 表 。 规 范 化 到 更 高 的 范式 (如 第 二 范式 、 [104] 
第 三 范式 ) 是 为 了 改进 包含 元 余 信 息 的 关系 表 的 设计 ， 以 减少 更 新 异常 的 问题 。 

我 们 使 用 下 面 将 介绍 的 非 关 系 表 VET CLINIC CLIENT 来 说 明 第 一 范式 ， 用 本 章 前 面 介 
绍 的 关系 表 AD CAMPAIGN MIX 来 说 明 第 二 范式 和 第 三 范式 。 


4.9.1 第 一 范式 
第 一 范式 1NF) 要求 表 中 的 每 一 列 的 每 个 值 都 只 能 是 该 列 范围 内 的 单个 值 。 


1NF 
一 个 表 满 足 1INF， 如 果 表 的 每 一 行 都 是 唯一 的 并 且 任 何 行 都 没有 包含 多 个 值 的 列 。 


复习 一 下 第 3 章 的 内 容 ， 每 个 关系 表 必 须 满足 以 下 两 个 条 件 : 

e@ 一 个 表 的 每 一 行 必 须 唯一 。 

@ 在 每 一 行 中 ， 每 一 列 的 值 必 须 是 单 值 。 表 中 的 任意 一 行 均 不 能 出 现 多 值 的 列 。 
因此 ， 根 据 定义 ， 每 个 关系 表 都 是 满足 1NF 的 。 所 以 ， 规 范 化 到 1NF 不 是 关系 数据 库 规范 
化 过 程 的 一 部 分 。 规 范 化 到 1NF 只 发 生 在 将 一 个 非 关 系 表 转 换 成 一 个 关系 表 的 情况 。 

图 4-13 展示 了 一 个 非 关 系 表 VET CLINIC 
CLIENT。 每 个 客户 可 以 有 多 个 宠物 ， 在 列 pe 


PetrNo、PetName 和 PetType 上 每 条 记录 可 以 有 ClientiD | ClientName 


多 个 取 值 。 列 PetNo、PetName 和 PetType 是 ee 


22 Lydi Fluff Be 
相关 的 ， 因 为 它们 都 对 应 真实 世界 中 的 宠物 的 A a 
概念 。 因 此 ， 列 PetNo、PetName 和 PetType 3 Ziggy ee 
Jane 1 Fluffy 
2 Cleo es 


组 成 了 一 组 相关 多 值 列 (related multivalued 
注意 在 图 4-13 中 ， 对 于 顾客 Lisa 的 记录 ， 4-13” 非 关系 表 ( 非 1NF) 











column)。° 


日 一 组 相关 多 值 列 也 叫做 “重复 组 ”。 
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列 PetNo、PetName 和 PetType 都 只 有 一 个 值 ， 但 是 对 于 其 他 顾客 来 说 ， 这 几 列 仍然 有 多 个 
取 值 。 在 顾客 Lydia 的 记录 中 这 几 列 有 三 个 值 ， 在 顾客 Jane 的 记录 中 这 几 列 有 两 个 值 。 
规范 化 到 1NF 就 是 通过 消除 一 条 记录 中 同一 列 有 多 个 取 值 的 可 能 性 ， 把 一 个 非 关系 表 
变 成 一 个 关系 表 (或 一 组 关系 表 )。 
一 种 将 非 关 系 表 转换 成 INF， 即 转换 成 关系 表 的 方法 ， 就 是 对 于 相关 多 值 列 的 每 个 值 创 
建 一 条 单独 的 记录 ， 如 图 4-14 所 示 。 
VET CLINIC CLIENT 


CiientID |ClientName PetNo | PetName PetType 


Ta | 
Ed 














222 Lydia 2 Bird 
1 Fluffy Cat 


图 4-14 通过 增加 记录 将 图 4-13 所 示 的 关系 表 规 范 化 到 1NF 





原来 的 非 关 系 表 的 每 条 记录 中 列 ClientID 和 ClientName 的 值 都 只 出 现 了 一 次 ， 而 在 
本 4-14 所 示 转 换 后 的 表 中 ,， 每 条 记录 中 列 ClientID 和 ClientName 的 值 重复 出 现 ， 且 重复 
次 数 与 该 条 记录 中 宠物 多 值 相关 列 的 取 值 重复 的 次 数 相 同 。 例 如 ， 在 图 4-14 中 ， 值 222、 
Lydia 重复 了 三 次 ， 因 为 客户 Lydia 有 三 个 宠物 ， 而 值 333、Jane 重复 了 两 次 ， 因 为 客户 
Jane 有 两 个 宠物 。 通过 这 种 方式 ， 规 范 化 到 1NF 后 的 关系 的 主 码 是 由 原来 的 非 关 系 表 的 主 
治 和 一 个 (或 多 个 ) 非 码 列 构 成 的 组 合 码 ， 这 里 的 非 码 列 在 相关 多 值 列 中 有 唯一 的 值 。 在 
图 4-14 中 ， 主 公 是 由 原来 的 主 码 列 ClientID 和 非 码 列 PetNo 构成 的 。ClientID 和 PetNo 的 
组 合 唯 一 标识 了 图 4-14 中 表 的 每 条 记录 。 

男 一 种 将 非 关 系 表 规 范 化 到 1NF 的 方法 是 为 每 一 组 相关 多 值 列 新 创建 一 个 单独 的 表 。 
如 图 4-15 所 示 ， 新 的 表 PET 保存 了 与 宠物 相关 的 一 组 列 PetNo 、PetName 和 PetType， 这 些 
列 在 原始 表 中 每 条 记录 有 多 个 取 值 。 新 表 还 包含 原始 表 的 主 码 (ClientID )， 它 既是 原始 表 的 
外 码 也 是 主 码 。 主 码 的 另 一 部 分 (PetNo) 与 外 码 组 合 在 一 起 ， 对 于 新 表 的 每 条 记录 都 有 唯 
一 的 值 。 图 4-15 展示 了 图 4-13 中 的 表 进 行 上 述 过 程 后 的 结果 。 
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图 4-15 通过 新 增 关系 表 将 图 4-13 所 示 的 关系 表 规 范 化 到 1NF 
注意 ， 新 创建 的 表 PET 对 于 相关 多 值 列 的 每 个 取 值 都 有 一 条 单独 的 记录 ， 这 与 图 4-14 


的 情况 相同 。 为 了 将 一 个 表 规 范 化 到 1INF ， 必 须 为 相关 多 值 列 的 每 个 取 值 创建 一 条 记录 。 
下 面 我 们 将 考虑 一 个 扩展 的 例子 ， 它 有 多 组 相关 多 值 列 。 图 4-16 中 的 表 有 两 组 相关 多 
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值 列 。 一 组 相关 多 值 列 包括 与 完 物 相关 的 列 PetNo、PetName 和 PetType， 另 一 组 相关 多 值 
列 包 括 与 家 庭 成 员 相 关 的 列 HHMember、Name 和 Relation - 


VET CLINIC CLIENT 


rrr er er er rr 


Joe Husband 
Sally | Daughter 
Clyde | Son 

Bi Husband 
Lilly 














DD | ND 


Daughter 





图 4-16 有 两 组 相关 多 值 列 的 非 关 系 表 ( 非 1NF) 


在 一 个 表 有 多 组 相关 多 值 列 的 情况 下 ， 需 要 为 每 组 相关 多 值 列 创建 一 个 单独 的 表 来 规 
范 化 到 INF。 图 4-17 说 明了 这 点 。 请 注意 ， 在 图 4-17 中 ， 每 个 新 创建 的 表 的 组 合 主 码 都 包 [106] 
含 了 原始 表 的 主 码 。 表 HOUSEHOLD MEMBER 的 主 码 包 括 ClientID (原始 表 的 主 码 ) 以 及 
HHMember， 表 PET 的 主 码 包括 ClientID (原始 表 的 主 码 ) 以 及 PetNo。 


VET CLINIC CLIENT PET HOUSEHOLD MEMBER 
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图 4-17 将 图 4-16 所 示 的 关系 表 规范 化 到 1NF 
需要 记 住 规范 化 到 1NF 并 不 是 关系 数据 库 中 关系 规范 化 过 程 的 一 部 分 ， 正 如 我 们 前 面 


提 到 的 ， 关 系数 据 库 中 的 每 个 关系 都 已 经 满足 1NF。 规 范 化 到 INF 只 发 生 在 将 非 关 系 表 转 
换 成 关系 表 的 情况 ， 关 系数 据 库 表 的 规范 化 过 程 是 从 第 二 范式 (2NF) 开始 的 。 





4.9.2 第 二 范式 
对 于 一 个 关系 表 ， 规范 化 过 程 是 从 检查 它 是 否 满足 第 二 范式 (2NF) 开始 的 。 
2NF 


如 果 一 个 表 满 足 1NF 且 不 包含 部 分 函数 依赖 ， 则 这 个 表 满 足 2NF。 


部 分 依赖 是 指 组 合 主 码 的 一 部 分 可 以 函数 确定 关系 的 一 列 。 如 果 一 个 关系 有 单列 的 主 
码 ， 那 么 这 个 关系 中 就 不 可 能 存在 部 分 函数 依赖 。 这 种 关系 本 身 就 满足 2NF ， 因 此 不 需要 把 
它 规范 化 到 2NF。 然 而 ， 有 组 合 主 码 的 关系 则 可 能 存在 部 分 郧 数 依 赖 。 如 果 一 个 关系 中 存在 
部 分 函数 依赖 ， 那 么 它 就 不 满足 2NF ， 需 要 被 规范 化 到 2NF。 
将 一 个 关系 规范 化 到 2NF 会 为 关系 中 的 每 个 部 分 依赖 集合 创建 一 个 额外 的 关系 。 这 些 
额外 创建 的 关系 的 主 码 是 原 关系 的 主 码 中 可 以 函数 确定 其 他 列 的 部 分 。 原 关系 中 被 部 分 确定 ” [107 


[108 
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的 列 也 是 新 创建 的 表 的 一 部 分 。 在 规范 化 到 2NF 过 程 之 后 ， 原 始 表 仍 然 保 留 ， 但 它 不 再 包 
含 部 分 男 数 依 顿 的 列 。 

我 们 将 使 用 关系 AD CAMPAIGN MIX 来 说 明 规 范 化 到 2NF 的 过 程 。 考 虑 图 4-10 所 示 
的 函数 依赖 。 关系 AD CAMPAIGN MIX 中 的 部 分 函数 依赖 如 下 : 


AdCampaignID 一 AdCampaignName, StartDate, Duration, CampalgnMgrlD， 
CampalgnMgrName 
ModelD 一 Media, Range 


图 4-18 展示 了 将 关系 AD CAMPAIGN MIX 规范 化 到 2NF 后 的 结果 。 关 系 AD CAMPAIGN 
MIX 中 的 部 分 依赖 被 消除 了 。 修 改 后 的 关系 AD CAMPAIGN MIX 包含 了 完全 依赖 


AdCampalgnID, ModelD 一 BudgetPctg 


AD CAMPAIGN AdCampaignID AdCampaignName | StartDate | Duration | CampaignMgriD | CampaignMgrName 


MODE ModelD | Media Range 













AD CAMPAIGN MIX | AdCampaignID | ModelD BudgetPctg 
图 4-18 ”Pressly AdAgency: 规范 化 到 2NF 


对 于 每 个 部 分 依赖 集合 ， 都 创建 了 一 个 单独 的 表 。 
新 的 关系 AD CAMPAIGN 包含 了 前 面 的 部 分 依赖 : 


AdCampaignID 一 AdCampaignName, StartDate, Duration, CampaignMgriD, 
CampalgnMgrName 


新 的 关系 MODE 包含 了 前 面 的 部 分 依赖 : 
ModelD 一 Media, Range 
修改 后 的 关系 AD CAMPAIGN MIX 不 再 包含 因数 依赖 部 分 主 码 的 列 ( 即 部 分 依赖 的 列 )。 


4.9.3 ”第 三 范式 


对 于 一 个 满足 2NF 的 关系 表 来 说 ， 接 下 来 的 规范 化 过 程 是 检查 它 是 否 满足 第 三 范式 
( 3NF )。 


3NF 
如 果 一 个 表 满 足 2NF 且 不 包含 传递 函数 依赖 ， 则 这 个 表 满 足 3NF。 


传递 依赖 是 指 一 个 关系 的 非 码 列 确定 另 一 个 非 码 列 。 如 果 一 个 关系 有 传递 依赖 ， 那么 它 
不 满足 3NF ， 需 要 被 规范 化 到 3NF。 

将 一 个 关系 规范 化 到 3NF 会 为 关系 中 的 每 个 传递 依赖 集合 创建 一 个 额外 的 关系 。 这 些 
额外 创建 的 关系 的 主 码 是 原始 表 中 可 以 函数 确定 其 他 非 码 列 的 一 个 (或 多 个 ) 非 码 列 。 原 关 
系 中 被 传递 确定 的 非 码 列 也 是 新 创建 的 表 的 一 部 分 。 在 规范 化 到 3NF 过 程 之 后 ， 原 始 表 仍 
然 保 留 ， 但 它 不 再 包含 传递 函数 依赖 的 列 。 
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我 们 将 使 用 关系 AD CAMPAIGN MIX 来 说 明 规范 化 到 3NF 的 过 程 。 考 虑 图 4-18 所 示 
的 函数 依赖 。 关 系 AD CAMPAIGN MIX 和 Mode 不 包含 传递 依赖 ， 它 们 已 经 满足 3NF。 而 
关系 AD CAMPAIGN 包含 以 下 传递 依赖 : 

CampaignMgrID 一 CampalgnMgrName 
因此 ， 它 不 满足 3NE。 将 关系 AD CAMPAIGN 规范 化 到 3NF 后 的 结果 如 图 4-19 所 示 。 
关系 AD CAMPAIGN 中 的 传递 依赖 被 消除 了 ， 并 且 创 建 了 一 个 单独 的 关系 CAMPAIGN 
MANAGER， 该 关系 包含 以 前 的 传递 依赖 。 


AD CAMPAIGN | AdCarnpaignlD 本本 StartDate | Duration | CarmpaignMaerID | 


MODE ModeiD | Media Range 


AD CAMPAIGN MIX | Adcam al niD ModelD | BudgetPctg | 


图 4-19 Pressly AdAgency: 规范 化 到 3NF 


修改 后 的 关系 AD CAMPAIGN 将 不 再 包含 传递 依赖 的 列 。 

图 4-20 展示 了 图 4-19 中 满足 3NF 关系 的 数据 记录 。 可 将 图 4-20 中 的 记录 与 图 4-4 中 的 
记录 相 比 较 ， 这 两 个 图 都 展示 了 同样 的 数据 。 在 图 4-4 中 ， 数 据 存 储 在 容易 发 生 更 新 异常 的 非 
规范 化 关系 中 。 而 在 图 4-20 中 ， 同 样 的 数据 包含 在 4 个 规范 化 的 表 中 ， 不 容易 发 生 更 新 异常， 








AD CAMPAIGN 


AdCampaignID | AdCampaignName | StartDate CampaignMgrlD 
SummerFun13 6.6.2013 CM100 
SummerZing13 6.8.2013 |30 days 


FallBall13 6.9.2013 |12 days | CM102 
AutmnStyle13 6.9.2013 | 5 days | CM103 
AutmnColors13 6.9.2013 CM100 


mpaignMgriD |CampaignMgrName 


GMi55 













图 4-20 ”Pressly AdAgency: 规范 化 后 的 关系 数据 
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AD CAMPAIGN MIX 


AdCampaignID | ModelD BudgetPctg 


| 


























3 0m 
4 0m | 





图 4-20 ( 续 ) 


注意 ， 将 一 个 关系 从 2NF 规范 化 到 3NF 的 过 程 中 ， 开 始 只 有 一 个 关系 ， 最 后 会 得 到 多 
个 关系 ， 这 些 关 系 是 通过 它们 之 间 的 参照 完整 性 约束 联系 起 来 的 。 图 4-19 和 图 4-20 展示 的 
四 个 关系 是 将 关系 AD CAMPAIGN MIX (来 日 图 4-4 ) 规范 化 后 的 结果 。 图 4-21 展示 了 规 
范 化 后 关系 之 间 的 参照 完整 性 约束 的 关系 模式 。 


AD CAMPAIGN 









AdCampaignID 


AdCampaignName (U) 
StartDate 

Duration 
CampalgnMgrlD (FK) 







CAMPAIGN MANAGER 
CampaignMgrID 


campalgnMgrName 














AD CAMPAIGN MIX 
AdCampaignID (Fx) 
ModelD (Fr) 
BudgetPctg 















ModeID 
Media 
Range 






图 4-21 Pressly AdAgency: 3NF 关系 的 关系 模式 


4.9.4 其 他 范式 


在 大 多 数 真 实 的 业务 问题 中 ， 按 照 本 章 所 述 的 方法 ， 通 过 去 除 部 分 和 传递 依赖 规范 化 到 
3NF， 这 对 于 消除 不 必要 的 元 余 以 及 更 新 异常 的 威胁 来 说 已 经 足够 了 。3NF 之 上 更 高 的 范式 
是 基于 其 他 类 型 的 函数 依赖 (完全 、 部 分 和 传递 函数 依赖 之 外 ) 进行 的 ， 通常 只 具有 理论 价 
值 ， 详 细 信息 见 附录 B。 


4.9.5 ”消除 宛 余 和 更 新 异常 


正如 本 章 前 面 提 到 的 ， 在 包含 元 余数 据 的 关系 中 ,更 新 操作 可 能 会 引起 更 新 异常 。 我 们 
将 使 用 Pressly 广告 代理 的 例子 来 说 明 规范 化 如 何 消除 元 余 和 更 新 异常 。 | 

观察 图 4-20 所 示 的 记录 。 每 个 宣传 活动 的 名 称 、 开 始 日 期 和 持续 时 间 只 列 出 一 次 ,每 
个 宣传 经 理 的 名 字 只 列 出 了 一 次 ， 每 个 宣传 模式 的 媒体 和 覆盖 范围 的 值 也 只 列 出 一 次 。 只 有 
外 码 的 值 对 于 同一 事件 重复 出 现 了 多 次 ， 例 如 在 关系 AD CAMPAIGN 的 列 CampaignMgrID 
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中 ， 值 CM100 出 现 了 两 次 ， 在 关系 AD CAMPAIGN MIX 的 列 AdCampaignID 中 ， 值 
222 出 现 了 三 次 。 在 满足 3NF 的 关系 表 中 多 次 出 现 的 外 码 值 代表 必要 的 元 余 (necessary 
redundancy)， 这 对 于 连接 各 个 表 来 说 是 必要 的 。 

下 面 这 个 例子 ( 见 图 4-22 ) 说 明了 规范 化 过 程 如 何 解决 更 新 异常 问题 。 


AD CAMPAIGN 
AdCampaignName | StartDate Duration CampaignMgriD 
SummerFun13 6.6.2013 CM100 









AdCampaignID 


SummerZing13 6.8.2013 |45 days CM101 







FallBall13 6.9.2013 “|12 days | |CM102 
555 AutmnColors13 6.9.2013 “| 3days | |CM100 








修改 异常 已 解决 : 
只 修改 了 一 条 记录 


删除 异常 已 解决 : 

删除 宣传 444， 但 宣传 经 理 
CM103 和 宣传 模式 6 的 所 
有 数据 仍 保留 在 数据 库 中 
















Loca 
Pn aioa 
7 memer |Natonal | > 插入 异常 已 解决 
新 的 宣传 模式 7 被 插入 ， 但 没有 
插入 使 用 新 模式 7 的 实际 活动 


AD CAMPAIGN MIX 


5O% 





图 4-22 Pressly AdAgency: 解决 更 新 异常 后 的 规范 化 关系 数据 


为 了 说 明 规 范 化 如 何 解 决 插 入 异常 问题 ， 考 虑 下 面 的 例子 。 假 设 该 广告 代理 决定 为 以 后 
的 宣传 活动 增加 一 种 宣传 模式 ，ModeID : 7，Media: Internet，Range: National。 这 个 新 的 
模式 不 能 直接 输入 到 图 4-4 的 关系 AD CAMPAIGN MIX 中 ， 还 必须 同时 输入 一 个 实际 使 用 
该 模式 的 宣传 活动 。 而 在 图 4-22 中 ， 新 的 (宣传 模式 7，Internet，National) 很 容易 输入 到 
关系 MODE 中 ， 不 需要 输入 其 他 信息 。 

为 了 说 明 规 范 化 如 何 解决 删除 异常 问题 ， 考 虑 下 面 的 例子 。 如 果 该 广告 代理 决定 取消 广 
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告 宣传 活动 444， 那 么 在 图 4-4 的 关系 AD CAMPAIGN MIX 中 删除 关于 宣传 活动 444 的 记 
录 ， 同 时 还 将 删除 (宣传 模式 6，Print，National) (因为 此 时 没有 其 他 宣传 活动 使 用 该 模式 ) 
以 及 (宣传 经 理 103，Nancy) (因为 此 时 没有 其 他 宣传 活动 是 由 她 管理 的 )。 男 一 方面 ， 对 
于 图 4-22 中 同样 的 场景 ， 从 关系 AD CAMPAIGN 中 删除 关于 宣传 活动 444 的 记录 (也 从 关 
系 AD CAMPAIGN MIX 中 删除 该 宣传 活动 的 记录 ), 但 (宣传 模式 6，Print，National ) 的 
记录 仍 保留 在 关系 MODE 中 ，( 宣 传经 理 103，Nancy) 的 记录 仍 保 留 在 关系 CAMPAIGN 
MANAGER 中 ， 

为 了 说 明 规范 化 如 何 解 决 修改 异常 问题 ， 考 虑 下 面 的 例子 。 如 果 该 广告 代理 决定 将 
宣传 活动 222 的 持续 时 间 从 30 天 延长 到 45$ 天 ， 在 图 4-4 的 关系 AD CAMPAIGN MIX 
中 ， 馈 要 对 三 条 记录 进行 修改 。 男 一 方面 ， 对 于 图 4-22 中 同样 的 场景 ， 只 需要 在 关系 AD 
CAMPAIGN 中 修改 宣传 活动 222 对 应 的 一 条 记录 。 


4.10” 男 一 个 规范 化 实例 

为 了 巩固 前 而 介绍 的 概念 ， 我 们 将 说 明 图 4-11 所 示 的 关系 RECRUITING 从 2NF 规范 
化 到 3NF 有 的 过 程 

攻读 图 4-12 中 的 沽 数 依赖 。 关 系 RECRUITING 中 的 部 分 依赖 如 下 : 


RecruiterlD 一 RecruiterName, StatuslD, Status 
Clty, State 一 CltyPopvulation 
State —> StatePopulation 


将 关系 RECRUITING 规范 化 到 2NF 的 结果 如 图 4-23 所 示 。 关 系 中 的 部 分 依赖 被 消除 。 
对 于 每 个 部 分 依 束 集合 都 创建 了 一 个 单独 的 表 。 


CITY City State | Citypopulation 










RECRUITER 





STATE State StatePopulation 


RECRUITING | ”RecruiterlD City State | NoOfRecruits 


图 4-23 ”Central Plane University: 规范 化 到 2NF 


考虑 图 4-23 所 示 的 函数 依赖 。 关 系 CITY 、STATE 和 RECRUITING 都 没有 传递 依赖 ， 
已 经 满足 3NF。 而 关系 RECRUITER 有 下 面 的 传递 依赖 : 


1112| StatuslD 一 > Status 
因此 必须 将 它 规范 化 到 3NF。 将 关系 RECRUITER 规范 化 到 3NF 的 结果 如 图 4-24 所 示 。 关 
系 RECRUITER 中 的 传递 依赖 被 消除 了 ， 并 且 创 建 了 一 个 单独 的 表 STATUS ， 该 表 包 含 了 之 
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前 的 传 北 依 赖 。 


RecruiteriD | RecruiterName StatusiD 
CityPopulation 
StatePopulation 


RECRUITING | ”RecruiterID i State NoOfRecruits 





STATUS Status 


StatusID 


RECRUITER 












STATE 





图 4-24 ”Central Plane Universityv: 规范 化 到 3NF 
图 4-25 展示 了 图 4-24 所 示 的 满足 3NF 的 关系 i 记录。 


RECRUITER STATE 


State StatePopulation 

ME 1.350,000 

MI 9,900,000 
12.900.000 
6.800.000 


OR 3900000 


RECRUITING 


R1 ! 











RI | Portland 

R |GrandRapids | 
本 Rod It 
|spoane Wa le | 
R3 Porang |OR | 

Ra |Egene |oR |20 
RB CEE 

Ra | 

RS 


IF Internal Full Time 






Internal Part Time 









GrandRapds [MN 
GrandRapds mW 





比较 图 4-25 和 图 4-11 ， 这 两 个 图 展示 了 同样 的 数据 。 在 图 4-11 中 ,数据 存储 在 包含 元 
余数 据 且 容易 发 生 更 新 异常 的 非 规 范 化 关系 中 。 而 在 图 4-20 中 ， 这 些 数 据 包 含 在 5 个 规范 
化 表 中 ， 不 包含 元 余数 据 且 不 容易 发 生 更 新 异 稍 。 

本 章 介 绍 了 关于 更 新 操作 和 规范 化 的 大 部 分 基本 问题 。 下 面 几 节 是 关于 规范 化 的 几 个 额 
外 的 问题 。 
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4.11 问题 说 明 : 规范 化 例外 情况 


通常 情况 下 ， 我 们 期望 将 数据 库 关系 规范 化 到 3NF 以 消除 数据 元 余 和 避免 更 新 异 稍 。 
然而 ， 我 们 需要 根据 实际 情况 明知 而 审慎 地 决定 是 否 将 关系 规范 化 到 3NF。 在 某 些 情况 下 ， 
我 们 不 必 把 某 些 关系 规范 化 到 3NF. 

考虑 图 4-26 所 示 的 关系 SALES AGENT-。 











SALES AGENT 

SAgentID SAgentName | City ‘State | ZipCode | 
[SA1 Rose |Glen Ellyn 60137 
SA Cmcago lt |60611 
SA3 Chicago 60610 
Ea 60167 






|SA5 





图 4-26 SALES AGENT 


关系 SALES AGENT 中 的 也 数 依赖 如 图 4-27 所 示 。 由 于 传递 依赖 
ZipCode — City, State 
存在 ， 关 系 SALES AGENT 满足 2NF 但 不 满足 3NF。 









SALES AGENT 





图 4-27 SALES AGENT 中 的 函数 依赖 


我 们 当然 可 以 把 该 关系 规范 化 到 3NF， 如 图 4-28 所 示 。 然 而 ， 我 们 也 可 以 将 关系 
SALES AGENT 保持 原样 。 要 做 这 个 决定 ， 则 需要 评估 列 City 和 State 不 出 现在 表 SALES 
AGENT 中 所 带 来 的 好 处 是 否 值得 创建 一 个 单独 的 关系 ZIPCODE-CITY， 因 为 增加 另 一 个 表 
并 在 这 个 表 上 增加 参照 完整 性 约束 会 增加 整个 关系 模式 的 复杂 性 。 例 如 ， 如 果 相 同 邮政 编 
码 的 销售 代理 的 数目 很 少 ， 那 么 规范 化 到 3NF 所 带 来 的 好 处 将 会 很 小 。 在 这 种 情况 下 ， 我 
们 可 以 认为 在 原 关 系 中 保留 列 State 和 City 而 引起 的 宛 余 是 可 以 接受 的 ， 因 此 保持 原 关 系 不 
变 。 男 一 个 例子 ， 考 虑 一 个 公司 将 每 个 州 的 销售 代理 人 数 限 制 为 最 多 2 名 的 情况 。 在 这 种 情 
况 下 ， 原 关系 中 宛 余 的 可 能 性 更 小 ， 因 此 更 不 需要 规范 化 。 


ZIPCODE.CITY| Zipcode | City State | 


图 4-28 SALES AGENT 中 的 3NF 
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当然 ， 这 些 例子 并 不 意味 着 规范 化 过 程 总 是 可 选 的 。 准 则 是 : 在 通常 情况 下 将 关系 数据 
库 规范 化 到 3NF， 但 同时 如 果 有 清晰 合理 的 原因 ， 人 允许 存在 茶 些 例 外 。 
4.12 ”问题 说 明 : 逆 规 范 化 的 规范 化 与 性 能 

在 规范 化 过 程 中 ， 包 含 元 余数 据 列 的 较 大 关系 被 分 解 成 较 小 的 关系 。 这 个 过 程 的 后 来 之 
一 是 规范 化 之 前 属于 少数 几 个 关系 的 数据 ， 在 规范 化 之 后 会 分 布 到 更 多 的 关系 中 。 这 会 影响 
数据 检索 的 性 能 。 我 们 将 用 下 面 的 例子 来 说 明 这 种 影响 。 

比较 图 4-4 和 图 4-20。 图 4-20 中 的 关系 是 图 4-4 中 关系 的 一 个 规范 化 的 版 本 。 假 设 
Pressly 广告 代理 最 常用 的 检索 之 一 如 下 所 示 : 

对 于 某 一 宣传 活动 的 每 种 宣传 模式 ， 返 回 以 下 的 列 : AdCampaignID ，AdCampaignName， 
CampaignMgrID ，CampaignMgrName，ModeID ，Media，Range 和 BudgetPctg - 

该 检索 的 结果 如 图 4-29 所 示 。 























RETRIEVED DATA 
0 | AdCampaignName 
MgrliD MgrName 
i "merFun13 CM100 Roberta 1 TV Local | 50% | 

人 11 | SummerFun1: 3 CM100 Roberta sl 

222 | Smmozngia [CMio1 [Su 
| 222 | Summerzng13 |CM101 |Sue |3 Radio 30% 
1222 | | SummerZing13 CM101 Sue Local 10%0 

333 FallBall13 CM102 |John Radio | Local 80% 








co | 
[oY 
Cw 
| 
Nl 


FallBall13 CM102 | john Radio 20% 


44 Aummsweia ICMio9 [Nancy |6 pm |Navonal| i000 | 
se [AuimnColorsi3 |CMi00 |Roberta 


图 4-29 ”Pressly Ad Agency: 检索 的 数据 














从 图 4-4 的 表 中 检索 这 些 信 息 只 需 简 单 地 从 表 AD CAMPAIGN MIX 中 选择 这 8 列 即 可 。 [115] 
然而 ， 从 图 4-20 所 示 的 表 中 检索 同样 的 信息 ， 则 需 将 关系 AD CAMPAIGN 、CAMPAIGN 
MANAGER、MODE 和 AD CAMPAIGN MIX 连接 ， 然 后 再 从 连接 的 结果 中 选择 所 需 的 8 
列 。 连 接 关系 从 连接 结果 中 检索 数据 的 过 程 ， 要 比 从 一 个 非 规范 化 的 表 中 检索 数据 花费 更 多 
的 时 间 。 因 此 ,一 些 检索 操作 (如 图 4-29 所 示 的 例子 ) 在 非 规范 化 的 数据 库 中 比 在 规范 化 的 
数据 库 中 要 快 。 在 这 种 情况 下 ， 就 需要 在 减少 元 余 和 更 快 的 检索 (性 能 ) 之 间 进 行 权衡 。 

逆 规 范 化 (denormalization ) 是 指 规范 化 过 程 的 逆 过 程 ， 它 把 多 个 规范 化 的 表 连 接 成 一 
个 非 规范 化 的 表 。 逆 规范 化 可 以 用 来 处 理 规范 化 与 性 能 的 权衡 问题 。 例 如 ， 可 以 在 关系 数据 
库 中 使 用 一 个 规范 化 的 主要 版 本 ， 所 有 的 数据 插入 、 修 改 和 删除 操作 都 在 这 个 版 本 中 进行 以 
避免 更 新 异常 。 同 时 ， 数 据 库 中 还 有 一 个 物理 的 逆 规 范 化 的 副本 ， 可 以 从 主 版 本 和 定期 生成 和 
存储 ， 用 于 更 快 的 检索 。 所 有 的 更 新 操作 都 在 主 版 本 上 进行 ， 不 易 发 生 更 新 异常 。 数 据 检 
索 操 作 可 以 在 逆 规 范 化 的 副本 上 进行 ， 以 获得 更 好 的 性 能 。 在 更 新 数据 很 少 但 读数 据 很 多 
的 情况 下 ， 这 种 设置 会 很 方便 。 逆 规范 化 的 副本 可 以 根据 用 户 对 于 最 近 数 据 的 需求 来 重新 
创建 。 


日 连接 操作 将 在 第 5 章 中 详细 介绍 。 
日 逆 规 范 化 方法 可 以 用 于 数据 仓库 ( 见 第 7、8、9 章 ) 和 物化 视图 ( 见 第 10 章 )。 
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逆 规 范 化 不 是 在 所 有 情况 下 都 可 以 采取 的 默认 过 程 。 相 反 ， 需 要 在 分 析 利 弊 之 后 再 明智 
而 审慎 地 使 用 逆 规 范 化 。 


4.13 问题 说 明 : ER 建 模 和 规范 化 


正如 本 书 第 2 章 和 第 3 章 所 提 到 的 ，ER 建 模 并 将 ER 模型 映射 成 关系 模式 是 最 常用 的 
数据 库 设计 方法 之 一 。 面 对 如 图 4-4 所 示 的 非 规范 化 的 表 时 ， 除 了 识别 范 数 依赖 ， 然 后 进行 
规范 化 过 程 2NF 和 3NEF， 设 计 者 还 可 以 分 析 该 表 并 且 根 据 它 创建 一 个 ER 图 ， 然 后 将 该 ER 
图 映射 成 关系 模式 。 

再 看 一 下 图 4-4 中 的 关系 表 。 数 据 库 设计 者 分 析 该 表 (查看 列 ， 检 查 表 中 的 数据 记录 以 
及 与 该 表 的 用 户 交谈 ) 将 会 创建 以 下 需求 。 

Pressly 广告 代理 的 数据 库 需 要 记录 以 下 数据 : 

e@ 对 于 每 个 广告 宣传 活动 : AdCampaignID (唯一 )、AdCampaignName (唯一 )、 开 始 日 

期 和 宣传 活动 的 持续 时 间 。 

e@ 对 于 每 个 广告 宣传 经 理 : CampaignMgrID (唯一 ) 和 CampaignMerName (唯一 )， 

e@ 对 于 每 种 广告 宣传 模式 : ModeID (唯一 )、Media 和 Range。 

e@ 每 个 广告 宣传 活动 只 由 一 个 宣传 经 理 管 理 。 

每 个 宣传 经 理 管 理 至 少 管理 一 个 广告 宣传 活动 ， 但 也 可 以 管理 多 个 广告 宣传 活动 。 

@ 每 个 广告 宣传 活动 至 少 使 用 一 种 宣传 模式 ， 但 也 可 以 使 用 多 种 宣传 模式 。 

一 种 广告 宣传 模式 可 以 被 多 个 广告 宣传 活动 使 用 ， 也 可 以 不 被 任何 广告 宣传 活动 使 用 。 

@ 一 个 广告 宣传 活动 每 使 用 一 种 宣传 模式 ， 将 记录 该 宣传 活动 为 这 种 宣传 模式 分 配 的 

预算 的 百分比 。 

基于 以 上 的 数据 库 需 求 ， 将 创建 如 图 4-30 所 示 的 ER 图 。 将 图 4-30 所 示 的 ER 图 映射 

成 关系 模式 的 结果 如 图 4-31 所 示 。 
cou ) 


StartDate 
AdCpName 
CpMgName 
AdCpld AD CAMPAIGN pp ManagedBy CP MANAGER 


WA 
ea 


< 





图 4-30 Pressly Ad Agency 的 ER 图 


注意 ， 图 4-31 中 的 关系 模式 与 图 4-21 中 通过 将 关系 AD CAMPAIGN MIX 规范 化 到 
3NF 而 得 到 的 关系 模式 完全 相同 。 

正确 使 用 ER 建 模 技 术 时 ， 将 会 得 到 包含 设计 良好 且 足 够 规范 化 到 3NF 的 关系 表 的 关系 
模式 。 例 如 ， 如 果 检 查 第 3 章 的 图 3-32 或 图 3-59 所 示 关 系 模式 中 的 关系 ， 可 以 发 现 这 些 模 
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式 中 的 所 有 关系 都 是 满足 3NF 的 。 


AD CAMPAIGN 





' AdCampaignID 


AdCampaignName Tu 
| StartDate 
DUration 
CampaignMarlD ,FRI) 














CAMPAIGN MANAGER 
CampaignMgrID 


CamnalgnMgrName 














AD CAMPAIGN MIX” 

AdcampaignID (rx) | 
ModeID ‘Fk, 
BudgetPcto 








(“resyulting from Uses relationship) 






ModeiD 
Media | 


| Range 


图 4-31 将 Pressly Ad Agency 的 ER 图 映射 为 关系 模式 





规范 化 作为 一 个 明确 的 过 程 ， 对 于 一 个 正确 设计 的 数据 库 项 目 来 说 ， 并 不 是 一 个 必需 的 
部 分 。 只 有 在 面 对 设 计 不 正确 且 需 要 改进 的 关系 时 ， 才 需要 将 数据 库 规范 化 到 3NF。 这 种 情 
况 并 不 少见 ， 因 此 熟悉 规范 化 过 程 是 很 重要 的 ， 

4.14 ”问题 说 明 : 用 于 简化 数据 库 内 容 的 设计 者 添加 的 实体 ( 表 ) 和 码 
在 某 些 情况 下 ， 即 使 一 个 关系 已 经 满足 3NF， 数 据 库 内 容 仍然 可 以 简化 。 以 下 是 使 用 


设计 者 添加 的 实体 / 表 (designer-added entity/table) 和 设计 者 添加 的 码 ( designer-added key) . 


来 达到 这 一 目的 的 简要 讨论 。 
考虑 图 4-20 中 的 关系 MODE。 该 关系 满足 3NFE， 每 条 记录 代表 一 个 不 同 的 宣传 模式 。 
正如 前 面 提 到 的 ， 关 系 MODE 可 以 通过 将 图 4-30 中 的 ER 图 映射 成 相应 的 关系 来 得 到 。 数 
据 库 设计 者 在 与 最 终 用 户 讨 论 后， 可 以 将 关系 MODE 中 每 个 宣传 模式 的 描述 媒体 和 和 菠 盖 
范围 中 重复 的 文本 型 的 值 蔡 换 成 更 短 的 数字 型 的 但 。 这 种 情况 下 ， 数 据 库 设 计 者 将 会 为 图 
4-30 中 的 ER 图 增加 以 下 需求 (新 的 需求 用 下 划 线 标识 ). 
Pressly 广告 代理 的 数据 库 需 要 记录 以 下 数据 : 
e@ 对 于 每 个 广告 宣传 活动 : AdCampaignID (唯一 )、AdCampaignName (唯一 )、 开 始 日 
期 和 宣传 活动 的 持续 时 间 。 
对 于 每 个 广告 宣传 经 理 : CampaignMgrID (唯一 ) 和 CampaignMgrName (唯一 )。 
对 于 每 种 广告 宣传 模式 : ModeID (唯一 )、Media 和 Range。 
对 于 每 个 广告 宣传 媒体 : MediaID (唯一 ) 和 Media。 
e 对 于 每 个 广告 宣传 的 覆盖 范围 : RangeID (唯一 ) 和 Range。 
@ 每 个 广告 宣传 活动 只 由 一 个 宣传 经 理 管 理 。 
每 个 宣传 经 理 至 少 管理 一 个 广告 宣传 活动 ， 但 也 可 以 管理 多 个 广告 宣传 活动 。 
@ 每 个 广告 宣传 活动 至 少 使 用 一 种 宣传 模式 ， 但 也 可 以 使 用 多 种 宣传 模式 。 
一 种 广告 宣传 模式 可 以 被 多 个 广告 宣传 活动 使 用 ， 也 可 以 不 被 任何 广告 宣传 活动 使 用 。 
@ 一 个 广告 宣传 活动 每 使 用 一 种 宣传 模式 ,将 记录 该 宣传 活动 为 这 种 宣传 模式 分 配 的 
预算 的 百分比 。 
@ 每 种 广告 宣传 模式 包含 一 种 媒体 。 每 种 广告 媒体 可 以 被 包含 在 一 种 或 多 种 宣传 模式 中 。 
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。 每 种 广告 宣传 模式 包含 一 个 槛 六 范围 。 每 个 广告 履 差 范围 可 以 被 包含 在 一 种 或 多 种 
宣传 模式 中 。 


基于 新 增加 的 需求 ， 如 图 4-32 所 示 ， 将 会 通过 增加 两 个 设计 者 添加 的 实体 来 增加 原 ER 
图 ,因此 会 在 广告 代理 数据 库 中 创建 两 个 设计 者 添加 的 表 、 如 图 4-33 所 示 。 


StartDate Ccovaro )) 
AdCpName CpMgName 
AdCpld AD CAMPAIGN | rs> CP MANAGER 
WA 


MedialD C mea ) 
< > BudgetpPctg 
MEDIA 
LS 
RangelD 





vooe 
YN 
ModelD 
RANGE 


图 4-32 将 Pressly Ad Agency 的 例子 扩展 的 ER 图 





AD CAMPAIGN 








AdCampaigniD 


AdCampaignName (Uy) 
StartDate 

Duration 
CampalgnMgrID (Fk) 









CAMPAIGN MANAGER 


CampaignMgrID 
CampaignMgrName 















AD CAMPAIGN MIX 


AdCampaigniD (Fk) 
ModeID (Fxk) 


BudgetPctg 





















RANGE 
ModeID 人 
RangelD (Fr ) 
MedialiD (FK) MEDIA 







MediaID 
Media 


图 4-33 将 Pressly Ad Agency 扩展 的 ER 图 映射 为 关系 模式 


设计 者 添加 的 码 MediaID 和 RangeID 将 会 分 别 作为 设计 者 添加 的 表 MEDIA 和 RANGE 
的 主 码 。 

图 4-34 展示 了 增加 后 的 AD CAMPAIGN MIX 数据 库 中 的 记录 。 值 TV、Radio 和 Print 
在 表 MEDIA 中 只 被 列 出 一 次 ， 而 这 些 值 对 应 的 外 码 在 表 MODE 中 重复 出 现 了 多 次 。 同 
样 ， 文 本 型 的 值 Local 和 National 在 表 RANGE 中 只 被 列 出 一 次 ， 而 这 些 值 对 应 的 外 码 在 表 
MODE 中 重复 出 现 了 多 次 。 

与 逆 规 范 化 的 情况 一 样 ， 不 能 草率 地 使 用 设计 者 添加 的 码 和 表 来 增加 数据 库 ， 对 于 每 一 
次 增加 ， 都 应 该 在 分 析 利 刺 之 后 谨慎 进行 。 
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AD CAMPAIGN 







SummerFunig |6.6.2013 
07 [Summerzing13 |6.8.2013 







6.9.2013 


2 

3 
AutmnStyle13 
AutmnColors13 





AdCampaigniD | AdCampaignName | StartDate Duration 


CampaignMgrlID 
CM100 

22 

44 

59 





5 days 


6.9.2013 3 days 


CM103 
CM100 








CAMPAIGN MANAGER 


CampaignMgrID CampaignMgrName 


CM100 | Roberta 





CMI101 | Sue 


CM103 | Nancy 


























10090 









图 4-34 Pressly AdAgency: 图 4-33 中 关系 的 数据 记录 


关键 术语 

augmented functional dependency ( 增 广 函数 依 
正 )，100 

delete operation (删除 操作 )，91 

deletion anomaly (删除 异常 )，95 

denormalization( 逆 规范 化 )，116 

designer-added entity/table (设计 者 添加 的 实体 / 
表 )，117 

designer-added key (设计 者 添加 的 码 )，117 

equivalent functional dependency( 等 价 函 数 依赖 )， 
100 

first normal form，1NF (第 一 范式 )，104 

full key functional dependency (完全 图 数 依 赖 )， 
101 

functional dependency( 限 数 依 赖 )，97 

insert operation (插入 操作 )，91 

insertion anomaly (插入 异 第 )，95 

modification anomaly (修改 异常 )，96 

modify operation (修改 操作 )，91 


necessary redundancy (必要 的 见 余 )，111 

nonkey column ( 非 码 列 )，95 

normal form (范式 )，104 

normalization (规范 化 )，91 

partial functional dependency (部 分 函数 依赖 )， 
101 

read operation〔( 读 操作 )，91 

redundant data (元 余数 据 )，91 

related multivalued column (相关 多 值 列 )，105 

second normal form，2NF (第 二 范式 )，104 

third normal form，3NF (第 三 范式 )，104 

transitive functional dependency (传递 阻 数 依赖 )， 
101 

trivial functional dependency (平凡 函数 依赖 )， 
99 

update operation〈 更 新 操作 )，91 

update anomaly (更 新 异常 )，91 

write operation( 写 操作 )，91 
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复习 题 


Q4.1 三 个 更 新 操作 分 别 是 什么 ? 

Q4.2 ”什么 是 元 余数 据 ? 

Q4.3 ”人 和 何 时 会 产生 插入 异常 ? 

Q4.4” 何 时 会 产生 删除 异常 ? 

Q4.5 ” 何 时 会 产生 修改 异 弟 ? 

Q4.6 ”什么 是 函数 依赖? 

Q4.7 什么 是 部 分 函数 依赖 ? 

Q4.8 ”什么 是 完全 区 数 依赖 ? 

Q4.9 什么 是 传递 郴 数 依 顿 ? 

Q4.10 给 出 1NF 的 定义 。 

Q4.11 给 出 2NF 的 定义 。 

Q4.12 给 出 3NF 的 定义 。 

Q4.13 ”什么 是 逆 规 范 化 ? 它 的 目的 是 什么 ? 
Q4.14 ”什么 是 设计 者 添加 的 实体 、 表 和 和 人 码 ? 


练习 


E4.1 写 出 一 个 容易 产生 更 新 异常 的 关系 (包含 多 条 记录 ) 的 例子 。 
E4.2 使 用 E4.1 中 的 关系 ,说 明 一 个 插入 异常 的 例子 。 
E4.3 使 用 E4.1 中 的 关系 ， 说 明 一 个 删除 异常 的 例子 。 
[120| ”E4.4 使 用 E4.1 中 的 关系 ， 说 明 一 个 修改 异常 的 例子 。 
E4.5 考虑 下 面 的 关系 和 数据 。 


AIRPORT KLX TABLE 





e@ AIRPORT KLX 表 记 录 了 KLX 机 场 每 天 起 飞 航班 的 数据 。 
e KLX 机 场 的 每 家 航空 公司 都 有 一 个 唯一 的 航空 公司 ID 和 航空 公司 名 称 。 
e@ KLX 机 场 的 航 站 楼 都 有 一 个 唯一 的 航 站 楼 ID 和 固定 数目 的 登 机 口 。 
@ 每 家 航空 公司 被 永久 分 配 使 用 KLX 机 场 的 一 个 ( 且 仅 有 一 个 ) 航 站 楼 。 
@ 可 以 将 多 家 航空 公司 分 配 到 KLX 机 场 的 同一 个 航 站 楼 。 
@ 该 表 记 录 了 每 天 每 家 航空 公司 在 KLX 机 场 起 飞 的 航班 数 。 
E4.5a 使 用 表 AIRPORT KLX， 描 述 一 个 插入 异常 的 例子 。 
E4.5b 使 用 表 AIRPORT KLX， 描 述 一 个 删除 异常 的 例子 。 
E4.5c ”使 用 表 AIRPORT KLX， 描 述 一 个 修改 异常 的 例子 。 
E4.5d 列 出 表 AIRPORT KLX 中 的 完全 函数 依赖 、 部 分 函数 依赖 〈( 如 果 存 在 ) 和 传递 数 依赖 (如 果 
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存在 )， 
E4.5e 写 出 将 表 AIRPORT KLX 规范 化 到 2NF 的 结果 。 
E4.Sf 写 出 将 表 AIRPORT KLX 规范 化 到 3NF 的 结果 。 
E4.5g 使 用 E4.5f 得 到 的 表 ， 说 明 E4.5a、E4.5b 和 E4.5c 中 的 异常 是 如 何 被 消除 的 。 
E4.6 考虑 下 面 的 关系 和 数据 。 


DEPARTMENT OF TRANSPORTATION (DOT) PROJECT TABLE 


ProiectiD tyiD | County name | ProjectManagerlD ProjectManagerName | ProjectMilesWithinCounty 


加 





1 
1 2 
1 3 1200 
3 2300 
Ww 50 
I | Le 0.30 
0 | 
i Bob 2300 


e DEPARTMENT OF TRANSPORTATION(DOT) 项 目 表 记录 了 项 目 和 项 目 长 度 (英里 ) 的 数据 。 
e@ 每 个 项 目 都 有 唯一 的 项 目 ID 和 项 目 名 称 。 
e@ 每 个 县 都 有 唯一 的 县 ID 和 县 名 称 ， 
@ 每 个 项 目 经 理 都 有 唯一 的 项 目 经 理 ID 和 名 字 -。 
@ 每 个 项 目 只 有 一 个 项 目 经 理 。 
@ 一 个 项 目 经 理 可 以 管理 多 个 项 目 。 
@ 一 个 项 目 可 以 横 跨 多 个 县 
e@ 该 表 的 列 ProjectMilesWithinCounty 记录 了 一 个 项 目 在 某 一 县 内 的 长 度 。 
E4.6a 使 用 表 DOT PROJECT， 描 述 一 个 插入 异 常 的 例子 。 
E4.6b 使 用 表 DOT PROJECT， 描 述 一 个 删除 异常 的 例子 。 
E4.6c ”使 用 表 DOT PROJECT， 描 述 一 个 修改 异常 的 例子 。 
E4.6d 列 出 表 DOT PROJECT 中 的 完全 函数 依赖 、 部 分 函数 依赖 (如 果 存 在 ) 和 传递 函数 依赖 (如 
果 存 在 )。 
E4.6e 写 出 将 表 DOT PROJECT 规范 化 到 2NF 的 结果 。 
E4.6f 写 出 将 表 DOT PROJECT 规范 化 到 3NF 的 结果 。 
E4.6g ”使 用 E4.6f 得 到 的 表 ， 说 明 E4.6a、E4.6b 和 E4.6c 中 的 异常 是 如 何 被 消除 的 。 
E4.7 考虑 下 面 的 关系 和 数据 。 


SHIPMENTS TABLE 


ShipmentlD | ShipmentDate | TrucklD | TruckType | ProductiD productrype| auantity 


im rr lsassla le | 0 
lan Ti SemTraierlB Batey | 120| 
223 
44 an Ta |vanTuck |C |SpakPiug |25000| 
5 aan |T111 [SemrraierlB |Batey | 180 


@ 一 家 汽车 配件 公司 的 表 SHIPMENTS 记录 了 出 货 数 据 。 
@ 每 次 出 货 都 有 唯一 的 出 货 ID 和 出 货 日 期 。 
@ 每 次 出 货 都 有 一 辆 卡车 运输 。 
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e 每 辆 卡车 都 有 唯一 的 卡车 ID 和 卡车 类 型 。 
@ 每 次 出 货 可 以 运输 多 种 产品 。 
@ 每 种 产品 都 有 唯一 的 产品 ID 和 产品 类 型 。 
@ 该 表 的 列 Quantity 记录 了 一 次 出 货运 输 某 种 产品 的 数量 。 

E4.7a 列 出 表 SHIPMENTS 中 的 完全 函数 依赖 、 部 分 函数 依赖 (如果 存在 ) 和 传递 晒 数 依赖 (如果 

存在 )。 
E4.7b” 写 出 将 表 SHIPMENTS 规范 化 到 2NF 的 结果 。 
E4.7c 写 出 将 表 SHIPMENTS 规范 化 到 3NF 的 结果 ， 
E4.8 考虑 下 面 的 关系 和 数据 。 


LANGUAGE SCHOOL TABLE 













CourselD | CourseLanguage | CourseLevel | ClientiD 


| 


一 一 一 一 
10 G 


erman Basic 





ClientName Atendance | FinalScore 
Mr Smith “| 100% 
Co 
Mr Smith | 100% 
C222 |Ms.Jones | 95% 


e 表 LANGUAGE SCHOOL 记录 了 学 员 参 加 语言 班 的 数据 。 
@ 每 个 课程 都 有 唯一 的 课程 ID 、 课 程 语言 和 课程 等 级 。 
e 每 名 学 员 都 有 唯一 的 学 员 ID 和 名 字 ， 
e 每 个 课程 可 以 有 多 名 学 员 参 加 ， 
@ 每 名 学 员 可 以 参加 多 个 课程 。 
@ 当 一 名 学 员 完 成 一 门 课程 ， 将 记录 他 的 出 勤 情况 和 在 该 班级 的 最 终 成 绩 。 
E4.8a 列 出 表 LANGUAGE SCHOOL 中 的 完全 函数 依赖 、 部 分 函数 依赖 (如 果 存 在 ) 和 传递 函数 
依赖 (如 果 存 在 )。 
E4.8b 写 出 将 表 LANGUAGE SCHOOL 规范 化 到 2NF 的 结果 。 
E4.8c ” 写 出 将 表 LANGUAGE SCHOOL 规范 化 到 3NF 的 结果 。 
E4.9 考虑 下 面 的 关系 和 数据 。 


HEALTH CENTER TABLE 













German 






Intermediate 
Advanced 


Basic 








German 


















German 













German 
12 German 


Japanese 


Intermediate 
Advanced 































| Japanese Intermediate 





PatientName | InsuranceColD NextAppointmentDate 





e 表 HEALTH CENTER 记录 了 病人 和 医生 预约 的 数据 。 

e 每 位 病人 都 有 唯一 的 病人 ID 和 名 字 。 

e@ 每 名 医生 都 有 唯一 的 医生 ID 和 名 字 。 

e@ 每 位 病人 在 一 个 保险 公司 投保 。 

每 个 保险 公司 都 有 唯一 的 保险 公司 ID 和 保险 公司 名 称 。 
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@ 每 次 预约 都 是 在 一 位 病人 和 一 名 医生 之 间 进 行 的 。 
@ 每 位 病人 可 以 有 多 个 预约 安排 (但 与 一 名 医生 之 间 只 能 有 一 次 预约 安排 )。 
E4.9a 列 出 表 HEALTH CENTER 中 的 完全 函数 依赖 、 部 分 函数 依赖 (如 果 存 在 ) 和 传递 函数 依赖 
(如 果 存 在 )。 
E4.9b 写 出 将 表 HEALTH CENTER 规范 化 到 2NF 的 结果 。 
E4.9c 写 出 将 表 HEALTH CENTER 规范 化 到 3NF 的 结果 . 
E4.10 考虑 下 面 的 关系 和 数据 。 


SURGERY SCHEDULE TABLE 


PatientiD | PatientName | SurgeonID | SurgeonName SurgeryDate | SurgeryType NurseRole 





zz Pa |ccc istAssstan 
4 [Pat JB88 brBow | sr Assistan 


e@ 表 SURGERY SCHEDULE 记录 了 手术 计划 的 数据 。 
每 位 病人 都 有 唯一 的 病人 ID 和 名 字 。 
每 名 外 科 医 生 都 有 唯一 的 外 科 医 生 ID 和 名 字 . 
每 名 护士 都 有 唯一 的 护士 ID 和 名 字 。 
每 个 手术 计划 只 有 一 种 类 型 。 
每 位 病人 可 以 有 多 个 手术 计划 ， 但 是 在 一 天 之 内 只 能 做 一 次 手术 。 
在 一 次 手术 期 间 ， 一 名 外 科 医 生 为 一 位 病人 手术 ， 同 时 分 配 一 名 或 多 名 护士 。 
在 每 次 手术 期 间 ， 一 名 护士 只 能 有 一 种 角色 。 
@ 一 名 护士 可 能 在 不 同 的 手术 中 有 不 同 的 角色 。 
@ 外 科 医 生 和 护士 每 天 可 以 参与 多 台 手 术 ， [123 | 
E4.10a 列 出 表 SURGERY SCHEDULE 中 的 完全 函数 依赖 、 部 分 图 数 依 赖 (如果 存在 ) 和 传递 贤 数 
依赖 (如果 存 在 )。 
E4.10b 写 出 将 表 SURGERY SCHEDULE 规范 化 到 2NF 的 结果 。 
E4.10c 写 出 将 表 SURGERY SCHEDULE 规范 化 到 3NF 的 结 : 
E4.11 考虑 下 面 的 关系 和 数据 . 


STUDENT INTERNSHIP TABLE 





e@ 表 STUDENT INTERNSHIP 记录 了 学 生 实 习 的 数据 。 
e@ 每 名 学 生 都 有 唯一 的 学 生 ID 和 名 字 。 
e@ 每 个 雇主 都 有 唯一 的 雇主 ID 和 名 字 。 
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@ 对 于 每 个 雇主 ， 都 有 若干 个 职位 。 
e@ 一 个 雇主 的 每 个 职位 有 唯一 的 职位 ID (两 个 不 同 雇主 的 两 个 职位 可 能 有 相同 的 职位 ID) 和 
职位 描述 。 
@ 每 名 学 生 只 能 为 一 个 雇主 工作 ， 并 且 在 该 雇主 处 只 能 有 一 个 职位 。 
@ 可 以 有 多 名 学 生 在 同一 雇主 的 同一 职位 工作 。 
E4.11a 列 出 表 STUDENT INTERNSHIP 中 的 完全 肾 数 依赖 、 部 分 函数 依赖 (如 果 存 在 ) 和 传递 函 
数 依 赖 (如果 存在 )。 
E4.11b 写 出 将 表 STUDENT INTERNSHIP 规范 化 到 2NF 的 结果 。 
E4.11c 写 出 将 表 STUDENT INTERNSHIP 规范 化 到 3NF 的 结果 。 
E4.12 考虑 下 面 的 关系 和 数据 。 


MOVIE ACTORS TABLE 


MovieName |ActorlD | ActorName ActorAssistantID | ActorAssistantName | ActorMovieSalary 


51.200.000 












Mi00 
Mi00 Bob B 
Wnter Promises 






W300 AA02 BobB $300.000 


e 表 MOVIE ACTORS 记录 了 演员 出 演 电 影 的 数据 。 
e@ 每 部 电影 都 有 唯一 的 电影 ID 和 电影 名 。 
e 每 个 演员 都 有 唯一 的 演员 ID 和 名 字 。 
e@ 每 个 演员 助理 都 有 唯一 的 演员 助理 ID 和 名 字 。 
e 每 部 电影 有 多 个 演员 参 演 。 每 个 演员 可 以 出 演 多 部 电影 。 
@ 演员 每 参 演 一 部 电影 ， 根 据 电影 合约 ， 演 员 会 获得 相应 的 片酬 。 
@ 每 部 电影 会 雇佣 多 个 演员 助理 。 
e@ 在 一 部 电影 中 ， 一 个 演员 分 配 一 个 演员 助理 ， 一 个 演员 助理 可 以 被 分 配给 多 个 演员 。 
e@ 一 个 演员 助理 可 以 在 多 部 电影 中 被 分 配给 同一 个 〈 或 几 个 ) 演员 。 

E4.12a 列 出 表 MOVIE ACTORS 中 的 完全 艺 数 依赖 、 部 分 函数 依赖 (如果 存 在 ) 和 传递 郴 数 依赖 

(如 果 存 在 )。 
E4.12b 写 出 将 表 MOVIE ACTORS 规范 化 到 2NF 的 结果 。 
E4.12c 写 出 将 表 MOVIE ACTORS 规范 化 到 3NF 的 结果 。 
E4.13 考虑 下 面 的 关系 和 数据 。 
BANK ACCOUNTS TABLE 


re er rr 
A111 Checking $1.000.00 C111 Joe Smith 
C222 Sue Smith 
A333 Money Market | $15,000.00 C444 Pat Clark 
C555 Lisa Clark 
C666 Timmy Clark 
A444 Savings $3,000.00 区 1 Joe Smith 
22222 Sue Smith 
E4.13a 通过 在 已 有 的 表 中 增加 记录 将 表 BANK ACCOUNTS 规范 化 到 1NF。 
E4.13b 通过 在 已 有 表 的 基础 上 创建 另外 的 表 将 表 BANK ACCOUNTS 规范 化 到 1NF。 
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Database Systems: Introduction to Databases and Data Warehouses 


SQL 





5.1 引言 


本 章 将 介绍 结构 化 查询 语言 ( Structured Query Language) SQL 及 其 功能 。SQL 不 仅 可 
用 于 数据 库 的 查询 ， 还 可 以 用 于 数据 库 的 创建 ， 实 现 数据 库 结构 的 添加 、 修 改 和 删除 ， 以 及 
数据 库 记 录 的 插入 、 删 除 及 修改 操作 。 本 书 的 后 续 部 分 将 采用 实例 介绍 在 数据 库 的 创建 和 使 
用 中 所 涉及 的 SQL 命令 及 上 因数 。 

事实 上 ， 每 一 个 现代 关系 型 DBMS 都 使 用 了 SQL- 关系 数据 库 获 得 成 功 与 普及 的 原 
因 之 一 就 在 于 ， 作 为 标准 查询 语言 的 SQL 困 数 仅 需 极 少 的 变化 就 能 适用 于 大 部 分 关系 型 
DBMS。 例 如 ，Oracle 、MySQL 、Microsoft SQL Server、PostgreSQL 、Teradata 、IBM DB2 
等 许多 数据 库 都 使 用 了 SQL， 

SQL 是 一 种 标准 的 通用 语言 ， 因 此 将 其 从 一 种 DBMS 转向 另 一 种 DBMS 的 过 程 往往 较 
为 容易 。 事 实 上， 编写 数据 检索 查询 语句 及 其 他 SQL 语句 的 能 力 ， 并 不 依赖 于 某 个 具体 的 
数据 库 软件 ， 而 是 依赖 于 用 户 对 该 通用 语言 的 掌握 程度 . 

即使 存在 一 个 SQL 标准 (如 本 章 末 所 讨论 的 )， 不同 的 RDBMS 仍然 可 以 使 用 SQL 语 
言 略 有 差异 的 不 同 版 本 。 本 章 将 给 出 一 些 基 本 的 SQL 命令 ， 这 些 命令 通用 于 不 同时 期 的 
RDBMS 包 。 


5.2 SQL 命令 综述 

SQL 是 一 种 综合 的 数据 库 语言 ， 涵 盖 了 多 种 功能 命令 。SQL 命令 可 以 根据 其 功能 分 为 
以 下 几 类 

数据 定义 语言 (Data Definition Language，DDL ) 

数据 操纵 语言 (Data Manipulation Language，DML ) 

数据 控制 语言 (Date Control Language，DCL ) 

事务 控制 语言 (Transaction Control Language，TCL ) 
本 书 将 首先 给 出 几 种 SQL 命令 用 途 的 简要 概述 ， 然 后 再 针对 每 种 命令 分 别 给 出 实例 介绍 。 


5.2.1 数据 定义 语言 


DDL 用 于 创建 和 修改 数据 库 结 构 。 注 意 ， 关 系数 据 库 的 结构 采用 关系 模式 来 表示 ， 关 
系 模 式 则 由 数据 关系 及 其 参照 完整 性 来 描述 。DDL 的 目的 在 于 实现 关系 模式 (以 及 一 些 额 【127] 
外 结构 ， 如 索引 等 约束 )， 并 得 到 一 个 实际 的 关系 数据 库 。DDL SQL 命令 的 例子 有 : 

CREAT 

ALTER 

DROP 
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本 书 将 采用 实例 对 创建 、 修 改 数据 库 结 构 的 上 述 SQL 命令 进行 逐一 说 明 。 


5.2.2 ”数据 操纵 语言 

DML 用 于 操作 数据 库 中 的 数据 ， 包 括 对 数据 的 插入 、 修 改 、 删 除 及 检索 等 操作 。 

一 旦 关系 模式 实现 为 实际 的 关系 数据 库 ， 数 据 就 要 插入 其 中 。 在 数据 库 的 生命 周期 中 ， 
允许 有 新 数据 的 插入 ， 并 允许 已 有 数据 的 修改 和 删除 DML 包括 以 下 几 种 插入 、 修 改 及 删 
除数 据 记 录 的 命令 : 

INSERT INTO 

UPDATE 

DELETE 
这 些 插入 、 修 改 及 删除 命令 同样 将 采用 相应 的 实例 来 前 释 说 明 。 

DML 语句 还 包括 如 下 的 数据 检索 命令 : 

SELECT 
数据 检索 也 称 为 查询 ( query)， 是 数据 库 中 最 常见 的 数据 操作 。 因 此 ，SELECT 命令 也 是 
SQL 中 使 用 最 频繁 的 命令 。SELECT 语句 之 后 可 以 有 多 个 其 他 的 SQL 关键 字 。 本 书后 面 将 
用 实例 对 SELECT 命令 及 其 后 的 SQL 关键 字 进 行 产 释 说 明 。 


5.2.3 数据 控制 语言 和 事务 控制 语言 

DCL 和 TCL 语句 可 用 于 与 数据 库 维护 及 管理 相关 的 多 种 过 程 。DCL 命令 帮助 实现 数据 
的 存 取 控制 ， 而 TCL 则 用 于 数据 库 中 的 事务 管理 。( 本 书 第 10 章 给 出 了 数据 库 管理 的 概述 ， 
我 们 将 在 第 10 章 讨 论 DCL 和 TCL 命令 ,) 
5.3 SQL 数据 类 型 


用 SQL 命令 创建 好 关系 以 后 ， 关 系 的 每 一 列 都 有 一 个 特定 的 数据 类 型 。 下 表 给 出 了 一 
些 最 常见 的 SQL 数据 类 型 (SQL data type ): 


CHAR (n) 1 个 字符 的 固定 长 度 字符 串 

VARCHAR (n) 最 大 长 度 为 n 个 字符 的 可 变 长 度 字 符 串 
INT 整 型 

NUMERIC (x, y») x 位 数字 ， 小 数 点 后 的 位 数 为 y 

DATE 日 期 值 (年 ， 月， 日 ) 


5.4 SQL 语法 简要 说 明 


在 用 实例 一 一 阐释 每 个 SQL 命令 之 前 ， 我 们 先 来 看 一 些 SQL 语法 的 简短 说 明 : 

e 分 号 。 紧 跟 在 每 一 条 SQL 语句 后 面 ， 表示 一 个 SQL 命令 的 结束 。 在 一 系列 SQL 语 
名 里 ， 分 号 表示 每 条 SQL 语句 何 时 结 

e SQL 关键 字 。 即 SQL 中 所 使 用 的 表 和 列 的 名 字 ， 不 区 分 大 小 写 。 语 句 可 以 是 大 
写字 母 也 可 以 是 小 写字 母 (如 , “SELECT” 与 “select” 或 “SeLeCt” 相 同 )。 考 虑 
到 可 读 性 ， 本 书 的 SQL 关键 字 使 用 大 写字 母 ， 表 名 和 列 名 都 使 用 小 写字 母 (这 是 若 
干 常见 的 书写 方法 之 一 )。 

。 一 条 SQL 语句 可 以 写成 一 个 长 句子 ， 作 为 文本 中 的 一 行 。 但 为 了 增强 可 读 性 ， 往 往 
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将 SQL 语句 拆 分 成 多 行 来 书写 。 
本 章 中 的 SQL 例子 可 以 在 大 多 数 现代 RDBMS 软件 中 执行 。 本 章 的 命令 列表 中 ,存在 
多 种 语法 命令 ， 这 些 命 令 将 在 本 章 末 进行 说 明 。 


5.5 CREATE TABLE 


SQL 命令 CREATE TABLE 用 于 关系 表 的 创建 和 连接 。 我 们 将 使 用 第 3 章 图 3-32 中 的 
ZAGI 零售 公司 销售 部 门 数据 库 来 曾 释 CREATE TABLE 的 用 途 。 为 方便 起 见 ， 图 5-1a 重复 
展示 了 图 3-32。 


Cr ) 
Productprice 
ProductID 
REGION 


PRODUCT 区 SupplhedBy VENDOR 
SN 7 


ew > CATEGORY 


ee Cm 
CAN CIN 
SALES \ 
TRANSACTION PP < > CUSTOMER 


PRODUCT 
ProductiD 



















ProductName 
REGION ProductPrice VENDOR 
RegionID VendorlD (Fk) VendoriD 
RegionName CategoryID (Fx) VendorName 
STORE SOLDVIA 
StorelD ProductiD (Fx) CATEGORY 
StoreZip TID (rx) CategoryID 
ReglonID (5K) NoOfltems CategoryName 
CUSTOMER 
SALESTRANSACTION CustomerID 
TID CustomerName 
TDate CustomerZip 


StorelD (Fx) 
CustomerlD (Fx) 


图 5-1a ZAGI 零售 公司 销售 部 门 数据 库 : ER 图 与 关系 模式 


晶 本 章 中 的 SQL 语句 都 可 以 按 其 出 现 的 顺序 得 到 执行 ， 执 行 结果 是 一 个 已 创建 、 已 填充 、 可 查询 的 数据 库 。 
本 章 中 6 种 流行 的 DBMS 软件 (Oracle、MySQL、Microsoft SQL Server、PostgreSQL、Teradata 以 及 IBM 
DB2 ) 中 的 SQL 语句 脚本 均 能 在 dbtextbook.com 得 到 。 
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图 5-1a 展示 了 ZAGI 零售 公司 销售 部 门 数 据 库 的 关系 模式 ， 图 5-1lb 则 给 出 了 使 用 
CREATE TABLE 语句 创建 相应 关系 表 的 SQL 代码 。 





TABLE vendor 
( vendorid CHAR (2) NOT NULL, 

vendorname VARCHAR (25) NOT NULL, 
PRIMARY KEY (vendorid) ) : 
















TABLE category 
{ categoryid CHAR (2) NOT NULL, 

categoryname VARCHAR (25) NOT NULL, 
PRIMARY KEY (categoryid) ) ; 









TABLE product 








( productid CHAR (3) NOT NULL, 
productname VARCHAR (25) NOT NULL, 
productprice NUMERIC{7,2) NOT NULL ， 
vendorid CHAR (2) NOT NULL, 
categoryid CHAR (2) NOT NULL, 






PRIMARY KEY (productid), 
FOREIGN KEY (vendorid) REFERENCES vendor (vendorid), 
FOREIGN KEY (categoryid) REFERENCES category (categoryid) 










TABLE region 
( regionid CHAR (1) NOT NULL, 
regionname VARCHAR (25) NOT NULL, 
PRIMARY KEY (regionid) )，) 











TABLE store 






( storeid VARCHAR (3) NOT NULL, 
storezip CHAR (5) NOT NULL, 
regionid CHAR (1) NOT NULL, 






PRIMARY KEY (storeid), 
FOREIGN KEY (regionid) REFERENCES region (regioniad) 










TABLE customer 







( customerid CHAR (7) NOT NULL, 
customername VARCHAR (15) NOT NULL, 
customerzip CHAR (5) NOT NULL, 






PRIMARY KEY (customerid) ); 










TABLE salestransaction 







( tia VARCHAR (8) NOT NULL, 
customerid CHAR (7) NOT NULL, 
storeid VARCHAR {3) NOT NULL, 
tdate DATE NOT NULL, 







PRIMARY KEY (tid), 
FOREIGN KEY (customerid) REFERENCES customer (customerid), 
FOREIGN KEY (storeid) REFERENCES store (storeid) ) ; 














TABLE soldvia 







( productid CHAR (3) NOT NULL, 
tid VARCHAR (8) NOT NULL, 
noof items INT NOT NULL, 






PRIMARY KEY (productid, tid), 
FOREIGN KEY (productid) REFERENCES product (productid), 
FOREIGN KEY (tid) REFERENCES salestransaction (tid) ) ; 






图 5-lb 为 ZAGI 零售 公司 销售 部 门 数 据 库 创建 关系 表 的 SQL 代码 


在 CREATE TABLE 命令 的 语义 中 ，CREATE TABLE<tablename> 之 后 是 圆 括号 。 括 号 
中 首先 是 列 的 描述 ， 如 列 名 、 该 列 数据 的 类 型 及 可 能 的 列 约 束 。NOT NULL 约束 就 是 这 种 
约束 的 例子 ， 它 表示 该 列 不 是 可 选 的 。 列 的 描述 之 间 用 逗号 隔 开 。 列 的 描述 之 后 是 关系 表 的 
描述 ， 表 的 描述 指明 了 表 的 约束 ， 包 括 表 的 主 码 和 外 码 等 。 
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观察 图 $-lb 中 的 CREATE TABLE 语 句 。 第 一 个 CREATE TABLE 语句 创建 了 表 
VENDOR， 该 表 有 两 个 列 : VendorID 和 VendorName。 对 每 个 列 ， 语 名 都 定义 了 其 数据 
类 型 ， 由 于 这 两 个 列 都 不 是 可 选 列 ， 因 此 都 有 NOT NULL 标识 (可 选 列 没 有 NOT NULL 
标识 )。 列 的 描述 后 面 是 表 的 描述 ， 即 描述 哪个 或 哪些 列 是 表 的 主 码 。 对 VENDOR 表 而 
言 ，VendorID 列 是 主 码 。 再 看 一 个 CREATE TABLE 语句 中 描述 复合 主 码 的 例子 : 关系 
SOLDVIA 的 CREATE TABLE 命令 。 该 CREATE TABLE 命令 描述 了 SOLDVIA 关系 的 复合 
主 码 ， 该 复合 属性 包含 ProductID 和 TID 两 个 列 。 

对 于 有 外 人 码 的 关系 表 ，CREATE TABLE 语句 则 通过 列 出 外 码 所 参照 的 列 和 表 来 描述 参 
照 完 整 性 约束 。 例 如 ，PRODUCT 关系 的 CREATE TABLE 语句 便 对 两 个 外 码 VendorID 和 
CategoryID 分 别 给 出 了 其 参照 完整 性 约束 的 描述 。 其 具体 表述 如 下 : 

FOREIGN KEY (vendorid) REFERENCES vendor (vendorid), 

该 描述 指明 在 PRODUCT 关系 中 的 VendorID 参考 VENDOR 关系 中 的 主 码 VendorID。 在 
一 些 RDBMS 软件 中 ， 该 表述 还 可 以 写 为 : 

FOREIGN KRY (vendorid) REFERENCES endor, 

该 精简 版 虽 没 有 指出 VENDOR 关系 中 的 主 码 列 名 ， 但 也 同样 表示 了 PRODUCT 关系 中 的 外 
码 VendorID 参照 了 VENDOR 关系 中 的 主 码 。 

要 创建 包含 外 码 的 关系 表 ， 必 须 先 创建 被 外 码 参 照 的 主 码 关系 表 ， 图 5-1b 中 CREATE 
TABLE 语句 的 排列 顺序 保证 了 这 一 上 点。 例如， 在 创建 PRODUCT 关系 表 之 前 ， 我 们 需 先 
创建 VENDOR 和 CATEGORY 关系 ， 这 是 由 于 PRODUCT 关系 的 外 码 参 照 了 了 VENDOR 和 
CATEGORY 两 个 关系 的 主 码 。 

实际 上 ，CREATE TABLE 语句 常常 并 不 直接 由 数据 库 开 发 人 员 来 编写 。 在 很 多 情况 下 ， 
开发 人 员 往 往 会 使 用 CASE (computer-aided software engineering) 工具 来 自动 生成 CREATE 
语句 ， 而 不 是 人 工 编 写 CREATE TABLE 语句 。 例 如 ， 开 发 人 员 可 以 用 CASE 工具 来 创建 
图 5-1a 中 所 示 的 关系 模式 ， 并 且 为 关系 中 的 列 定义 数据 类 型 (或 类 似 NOT NULL 的 其 他 约 
束 )。 一旦 关系 中 列 的 细节 确定 好 以 后 ， 开 发 人 员 就 可 以 激活 相应 的 函数 (如 ， 点 击 CASE 
工具 的 相应 按钮 ) 来 自动 地 创建 CREATE TABLE 语句 。 这 样 就 能 得 到 如 图 5-1b 所 示 的 
CREATE TABLE 语句 。 


5.6 DROP TABLE 


命令 DROP TABLE 用 于 从 数据 库 中 移 除 关系 表 。 例 如 ， 若 希望 移 除 表 SOLDVIA， 我 
们 可 以 给 出 如 下 语句 : 


DROP TABLE soldvia; 


注意 ， 若 希望 将 ZAGI 零售 公司 销售 部 门 数据 库 的 所 有 关系 表 一 一 移 除 ， 我 们 需要 考虑 
DROP TABLE 语句 的 顺序 问题 。 若 一 个 关系 的 主 码 被 其 他 关系 的 外 码 所 参照 ， 则 参照 完整 
性 约束 会 阻止 对 该 主 码 所 在 关系 的 删除 操作 。 因 此 我 们 需要 先 删 除外 码 所 在 关系 ， 然 后 才能 
删除 被 外 码 参 照 的 主 码 关系 。 

例如 ， 下 面 的 DROP TABLE 命令 是 无 效 的 : 
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DROP TABLE sequence ZAGI database 一 INVALID: 


DROP TABLE regqion; 

DROP TABLE store; 

DROP TABLE salestransaction; 
DROP TABLE Product :; 

DROP TABLE vendor; 

DROP TABLE category.; 

DROP TABLE customer; 

DROP TABLE soldvia,; 


上 面 的 这 个 DROP TABLE 序列 是 无 效 的 (部 分 语句 不 会 执行 )， 原 因 在 于 该 序列 试图 删 
除 那些 被 参照 的 关系 。 例 如 ， 由 于 关系 STORE 参照 了 REGION， 因 此 我 们 不 能 首先 删除 
REGOIN 关系 。 我 们 可 以 先 删 除 STORE 关系 ， 然 后 再 删除 REGOIN 关系 。 

下 面 的 DROP TABLE 序列 是 有 效 的 : 

DROP TABLE sequence ZAGI database—VALID: 


DROP TABLE soldvia,; 

DROP TABLE salestransaction; 
DROP TABLE store; 

DROP TABLE product, 

DROP TABLE vendor,; 

DROP TABLE region; 

DROP TABLE category.; 

DROP TABLE customer; 


在 该 DROP TABLE 语句 序列 中 ， 没 有 哪个 关系 是 在 外 码 所 在 关系 删除 之 前 被 删除 的 。 若 我 
们 执行 该 DORP TABLE 语句 序列 ， 则 ZAGI 零售 公司 销售 部 门 数 据 库 的 所 有 表 都 会 被 逐一 
删除 。 这 种 情况 下 ， 可 以 通过 执行 图 5-1b 所 列 出 的 语句 来 重新 创建 ZAGI 零售 公司 销售 部 
门 的 数据 。 


5.7 INSERT INTO 


INSERT INTO 语句 用 于 向 已 创建 好 的 关系 表 中 填 和 数据。 为 了 阐释 INSERT INTO 命 
令 的 用 处 ， 我 们 将 用 第 3 章 中 图 3-33 的 记录 来 填充 ZAGI 零售 公司 销售 部 门 数据 库 。 为 方 
便 起 见 ， 图 5-1c 重复 给 出 了 图 3-33。 
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图 5-lc ”ZAGI 零售 公司 销售 部 门 数据 库 的 记录 
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图 5-1d 所 示 是 ZAGI 零售 公司 销售 部 门 数据 库 的 数据 填充 语句 INSERT INTO， 


‘Pacifica Gear'); 


('MK', ‘Mountain King'); 


('CP', 'Camping'); 
('FW', ‘Footwear'}),; 


(AX "ses ‘Bag lO00 "PPO, CEP}: 
(72X21 "Basy Boot' 70, MK’, "FW 


("3X3"'; Coay SocK',1S, 'MK', 
('4X4', 'Dura Boot',90,'PG', 
("SXS'7 "Tiny Tent' 1S0; MK', 


'FW' ); 
'FW'); 
"CGP") 


('6X6', ‘Biggy Tent',250,'MK','CP'); 


('C', 'Chicagoland'),，; 
人 


(Lt 6O60D0 "CQ 
("S22 "G0603" 7 "CC: ) 
Bd SO 


“二 


( 
( 


-2-333', 'Tina', '60137'); 
'2-3-444','Tony', '60611'); 
'3-4-555','Pam','35401'); 


‘O01/Jan/2013'); 


人 
(17222 7 12=-3-444 7 3S21， 
("T312333",. 63, 02/0an/2013"); 
('T444','3-4-555','S3','02/Jan/2013')， 
("TS5S55','2=-3-444','S83','02/Jan/2013'); 
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salestransaction VALUES 
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图 5-l1d ZAGI 零售 公司 销售 部 门 数据 库 的 INSERT INTO 语句 


语句 中 INSERT INTO <tablename> 后 紧 跟 的 是 关键 字 VALUES 以 及 圆 括 号 ， 圆 括号 中 
列 出 了 需要 插入 的 数据 值 。 网 5-1d 中 的 第 一 个 INSERT INTO 语句 实现 了 由 VENDOR 关 
系 的 VendorID 列 插 和 信 值 PG、 回 VendorName 列 插入 值 Pacifica Gear。 各 个 列 在 CREATE 
TABLE 语句 中 的 顺序 决定 了 待 插入 值 在 INSERT INTO 语句 中 的 顺序 。 关 系 VENDOR 的 
CREATE TABLE 语句 首先 创建 VendorID 列 ， 然 后 创建 YendorName 列 ， 因 此 VENDOR 关 
系 的 每 一 个 INSERT INTO 语句 中 ， 都 应 该 先 列 出 待 插 入 的 VendorID 值 ， 再 列 出 待 插入 的 
VendorName 值 - 

此 外 ,INSERT INTO 语句 还 可 以 有 如 下 形式 : INSERT INTO <tablename> (<columname>. 
…) ; 此 处 待 插 入 值 的 顺序 则 由 语句 中 表 和 名 后 面 


<columname>, *…)VALUES(value, value, 


的 列 名 顺序 决定 。 
例如 ， 图 5-1d 的 最 后 一 个 INSERT INTO 命令 可 以 写成 如 下 形式 : 


INSERT INTO soldavialnooficems， 全 


这 种 INSERT INTO 语句 的 书写 方式 允许 INSERT INTO 语句 中 值 的 顺序 与 CREATE TABLE 
语句 中 的 顺序 不 同 。 另 一 方面 ， 这 种 方式 明确 给 定 每 个 列 的 列 名 ， 因 而 增加 了 INSERT 


tid, productid) VALUES (1, 


Ly) 
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INTO 命令 的 语义 -在 列 名 明确 给 出 的 形式 中 ， 并 不 是 所 有 的 列 都 需要 指明 .我们 可 以 只 问 
已 准备 好 数据 的 列 插入 数据 。 然 而 不 管 使 用 哪 种 INSERT INTO 和 语义， 强制 性 的 列 都 需要 有 
数据 填 和 人 : 

在 SQL 语句 中 ， 数据 类 型 为 字符 型 (如 CHAR 或 VARCHAR) 的 列 值 希 要 用 引号 分 陨 ， 
而 数值 型 (如 INT 或 NUMERIC) 则 不 需要 。 例 如， 图 $-1d 中 关系 VENDOR 的 INSERT 
INTO 语句 中 ， 所 有 值 都 有 引号 进行 分 隔 ， 其 厚 因 在 于 VENDOR 关系 的 两 个 列 都 是 字符 炎 
型 ， 再 者 ， 由 于 PRODUCT 关系 的 CREATE TABLE 语句 中 ， 第 三 列 ProductPrice 是 煞 但 
型 ， 因 此 在 PRODUCT 关系 的 INSERT INTO 语句 中 ,第 三 个 值 没 有 使 用 引号 

事实 上 ， 如 图 5-1d 中 的 INSERT INTO 语句 往往 并 不 由 负责 数据 实体 的 终端 用 户 直接 编 
写 ”通常 的 做 法 是 借助 第 6 章 所 述 的 表单 (form) 等 前 端 软件 (front-end application ) 来 确保 
终端 用 户 对 数据 实体 的 相应 操作 ， 即 前 端 软件 将 代替 终端 用 户 产生 相应 语句 。 此 外 ， 当 从 处 
部 向 关系 表 中 导 人 大 量 数据 时 ， 前 端 软 件 也 会 产生 相应 的 INSERT INTO 语句 。 

观察 图 5-1d 可 以 看 出 ， 没 有 外 码 的 关系 表 会 优先 执行 插入 操作 。 关 系 表 中 对 外 码 的 插 
入 操作 必须 在 其 所 参照 的 主 码 完成 插入 之 后 进行 。 参 照 完整 性 要 求 必 须 在 输入 了 被 参照 的 主 
公 值 之 后 ， 才 能 输入 外 码 的 值 。 
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SELECT 诸 句 用 于 从 数据 库 关 系 中 检索 数据 ， 是 最 常用 的 SQL 语句 。SELECT 语句 的 
污 果 是 一 张 关 系 表 .该 关系 表 包 含 所 有 满足 SELECT 语句 条 件 的 记录 . 在 其 简单 形式 中 ， 
SELECT 语句 的 构成 如 下 : 


SELECT <COlumMmns> 
FROM <tabje> 


和 在 SELECT 子 句 中 ， 关 键 字 SELECT 之 后 紧 跟 的 是 待 检索 的 列 和 名， 列 名 之 间 用 有 逗号 隔 开 . 
SELECT 子 句 后 面 往 往 跟 有 一 个 FROM 子 句 。 在 FROM 子 句 中 ， 关键 字 FROM 之 后 紧 跟 行 
检索 关系 表 的 表 名 。Query1 就 是 一 个 最 简单 的 SELECT 语句 实例 : 

Query1 的 文本 描述 : 检索 关系 PRODUCT 中 的 所 有 内 容 。 


Query1: SELECT productid, productname, productprice, vendoria, 
categoryid 
FROM product.; 


Query1 的 结果 在 图 5-2 中 给 出 。 
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图 $S-2 Querl 和 Queryla 的 结果 


Query1l 检索 了 PRODUCT 关系 中 的 所 有 内 容 。 
Queryla 也 可 以 得 到 同样 的 结果 : 
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Query1a: SELECT 
FROM product' 


SELECT 关键 字 之 后 的 星 号 (*) 意 为 “所 有 的 列 ” 。 使 用 星 号 和 列 出 所 有 列 名 得 到 的 结 
果 相 同 。 因 此 ， 若 我 们 希望 显示 关系 中 所 有 的 列 ， 使 用 星 号 更 简洁 。 但 若 希望 检索 结果 中 列 
的 显示 顺序 与 CREATE TABLE 语句 中 列 的 顺序 不 同 ， 则 不 能 使 用 星 号 ， 这 是 唯一 例外 的 情 
况 。Query2 给 出 了 一 个 这 样 的 例子 。 
Query2 的 文本 描述 : 检索 关系 PRODUCT 中 的 所 有 内 容 ， 以 如 下 顺序 来 显示 所 有 的 列 ， 
ProductName, ProductID, VendorID, CategoryID, ProductPrnice. 


Query2: SELECT productname, productid, vendorid, categoryid, 
productprice 
FROM product.; 


Query2 的 结果 在 图 5-2a 中 给 出 。 
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图 5-2a Query2 的 结果 


Query3 的 例子 中 则 给 出 了 使 用 SELECT 子 句 仅 查询 部 分 列 的 用 法 。 
Query3 的 文本 描述 : 显示 PRODUCT 关系 中 的 ProductID 和 ProductPrice 两 列 ， 





Query3: SELECT productid, productprice 
FROM product,; 
图 5-3 给 出 了 Query3 的 结果 。 [135| 


ProductiD | ProductPrice 





图 5-3 Query3 的 结果 


除了 用 于 列举 关系 中 的 列 ，SELECT 子 句 还 能 用 于 显示 以 表达 式 形 式 给 出 的 派生 属性 
(计算 列 的 值得 到 )。 此 时 ，SELECT 语句 可 组 织 成 如 下 形式 : 


SELECT <CoOlurmns ，expressions> 
FROM <table> 


Query3a 给 出 了 一 个 这 样 的 例子 。 
Query3a 的 文本 描述 : 对 关系 PRODUCT， 显 示 ProductID 和 ProductPrice 两 个 列 ， 并 
显示 一 个 新 的 列表 示 为 增长 10% 以 后 的 ProductPrice 值 。 


132 旬 一 部 分 ” 梦 估 型 淮 据 庚 


Query3a: SELECT productid, productprice, productprice * 1.1 
FROM product ; 


图 5-3a 给 出 了 Query3a 的 结果 。 





图 5-3a ”Query3a 的 结果 


SELECT FROM 语句 还 包含 了 其 他 可 选 关 键 字 ， 如 WHERE、GROUP BY、HAVING、 
ORDER BY ， 其 顺序 如 下 所 示 : 


SELECT <columns, expressions> 

FROM <tables> 

WHERE <row selection condition> 
GROUP BY <grouping columns> 

HAVING <group selection condition> 
ORDER BY <Sorting colurms, expressions> 


我 们 将 在 下 面 的 例子 中 给 出 这 些 关 键 字 的 阐释 说 明 ， 


5.9 WHERE 


SELECT 语句 可 以 包含 WHERE 条 件 ，WHERE 条 件 决定 了 应 该 检索 哪些 列 、 不 检索 哪 
些 列 。Query4 给 出 了 一 个 带 有 WHERE 条 件 的 SELECT 查询 的 简单 例子 。 
Query4 的 文本 描述 : 对 所 有 价格 高 于 $100 的 产品 ， 检 索 其 产品 编号 、 产 品名 称 、 代 


理 商 编号 及 产品 价格 。 
Query4 : SELECT' productid, productname, vendorid, productprice 
FROM product 
WHERE productprice > 100; 


图 5-4 给 出 了 Query4 的 结果 。 


ProductID | ProductName | VendorlD | ProductPrice 


图 5-4 ”Query4 的 结果 


所 有 ProductPrice 值 大 于 100 的 记录 行 都 将 被 检索 出 来 ， 其 余 的 则 不 会 。 
逻辑 条 件 决 定 哪些 记录 将 被 检索 出 来 。 下 列 逻 辑 比 较 操 作 都 可 以 作为 逻辑 条 件 : 





= 等 于 
< 于 
和 了 
< 水 村 每 于 
2 天 可 村 于 


= 不 等 于 
< > 不 等 于 (可 选 标 识 ) 


一 个 WHERE 子 句 中 可 以 使 用 多 个 比较 表达 式 ， 用 布尔 型 逻辑 操作 AND 或 OR 进 行 


连接 . 
Query5 给 出 了 WHERE 子 句 中 包含 多 个 比较 表达 式 的 例子 。 


Query5 的 文本 描述 : 检索 产品 种 类 为 “FW” 且 价格 小 于 等 于 $110 的 所 有 产品 的 产品 


Ea 


编号 、 产 品名 称 、 代 理 商 编号 、 产 品 价 格 。 


Query5 : SELECT productid, productname, vendorid, productprice 
FROM product 
WHERE productprice <= 110 AND 


categoryid = !RW'; 


图 5-5 给 出 了 Query5 的 结 
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图 5-5 _ Querys 的 结果 








注意 ， 就 像 INSERT INTO 语句 中 给 出 的 情况 一 样 ， 查 询 中 的 字符 型 值 需要 用 引号 分 隔 


(如 ‘FW'), 


SA0 DBTUNGI 


DISTINCT 关键 字 可 以 结合 SELECT 语句 一 起 使 用 。 为 了 阐述 其 用 途 ， 首 先 请 看 








Query6, 
Query6 的 文本 描述 : 检索 PRODUCT 关系 中 所 有 记录 的 VendorID。 
Query6: SELECT vendorid 
FROM ProdGuct ; 


图 5-6 给 出 了 Query6 的 结果 。 

PRODUCT 关系 共有 6 条 记录 ， 图 $-6 列 出 了 每 条 记录 的 
VendorID 值 。 注意， a ey I 但 由 于 

若 需 要 不 重复 好 展示 关系 PRODUCT 中 所 有 存在 的 VendorID 
值 ， 那 么 请 看 Query7 的 例子 。 

Query7 的 文本 描述 : 不 重复 地 显示 关系 PRODUCT 中 所 有 的 


VendorID 。 
Query7 : SELECT DISTINCT vendorid 
FROM Product ; 


图 5-7 给 出 了 Query7 的 结果 。 
在 SELECT 关键 字 后 使 用 DISTINCT 可 以 去 掉 查 询 结 果 中 重复 
出 现 的 值 。 


图 5-6 Query6 的 结果 





图 5-7 
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Query7 的 结果 
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511 ORDERBY 


若 希望 对 查询 结果 的 某 一 列 或 者 多 个 列 进行 排序 ， 则 需要 在 SELECT 查询 中 使 用 
ORDER BY 关键 字 。Query8 的 查询 结果 需要 按照 商品 价格 进行 排序 。 
Query8 的 文本 描述 : 检索 FW 类 所 有 产品 的 产品 编号 、 产 品名 称 、 种 类 编号 以 及 产品 
价格 ， 查 询 结果 按 商品 价格 排序 。 


Query8: SELECT productid, productname, categoryid, productprice 
FROM product 
WHERE categoryid = 'FW' 
ORDER BY productprice,; 


图 5-8 给 出 了 Query8 的 结果 。 
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图 5-8 Queryg 的 结果 


默认 情况 下 ，ORDER BY 对 结果 进行 升序 排列 。 若 希望 对 结果 进行 降序 排列 ， 则 需要 
使 用 Query9 中 所 示 的 关键 字 DESC 。 
Query9 的 文本 描述 : 检索 FW 类 所 有 产品 的 产品 编号 、 产 品名 称 、 种 类 编号 及 产品 价 
格 ， 结 果 按 商品 价格 降序 排列 。 







Query9: SELECT productid, productname, categoryid, productprice 
FROM product 
WHERE categoryid = 'FW' 
ORDER BY productprice DESC:; 


图 5-9 给 出 了 Query9 的 结果 。 


4x4 |DwaBoo |FW | 
(3x3 |CoySook [Fw |15 
: 图 5-9 ”Query9 的 结果 

查询 的 结果 还 可 以 按照 多 个 列 的 值 进 行 排序 ， 如 Query10 中 所 示 。 

Query10 的 文本 描述 : 检索 所 有 产品 的 产品 编号 、 产 品名 称 、 种 类 编号 、 产 品 价格 ， 结 
果 按 种 类 编号 排序 ， 相 同 种 类 编号 的 产品 则 根据 产品 价格 排序 。 












Query10: SELECT productid, productname, categoryid, productprice 
FROM product 
ORDER BY categoryid, productprice; 


图 5-10 给 出 了 Query10 的 结果 。Query10 先 根据 CategoryID 进行 排序 ， 然 后 根据 ProductPrice 
L138] ”进行 排序 。 
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ProductiD | ProductName | CategorylD | ProductPrice 
P 


加 Zzz Bag C 100 
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图 5-10 ”Query10 的 结果 


9.12 LIKE 


若 希 望 检索 记录 中 哪些 特定 列 的 值 与 给 定 条 件 部 分 匹配 ， 就 需要 在 SELECT 命令 的 
WHERE 子 句 中 使 用 LIKE 关键 字 。 请 看 Query11. 

Query11 的 文本 描述 : 检索 所 有 产品 名 字 里 面包 含 “Boot” 的 所 有 产品 记录 。 

QUery1 1 : SELECT 


FROM product 
WHERE productname LIKE :$Boot%'’,; 


图 5-11 给 出 了 Query11 的 结果 。 
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图 5-11 ”Query11 的 结果 


“% ”是 一 个 通配符 ， 其 含义 是 “ 空 串 或 任意 字符 串 ”， 因 此 该 查询 语句 会 检索 出 所 有 商 
品名 称 ProductName 中 包含 “Boot”(“ Boot” 前 或 后 可 出 现任 意 字 符 串 ， 包 插 空 串 ) 的 所 
有 商品 记录 。 男 一 个 通配符 “ ” 则 表示 “任意 的 一 个 字符 ”。 


5.13 聚集 函数 


为 了 计算 和 统计 查询 结果 ，SQL 提供 了 如 下 聚集 函数 ( aggregate functions) : COUNT. 
SUM、AVG、MIN 以 及 MAX。COUNT 函数 用 于 实现 查询 结果 中 记录 的 计数 ， 而 SUM.、 
AVG、MIN 以 及 MAX 盟 数 则 分 别 用 于 计算 查询 结果 集合 里 值 的 总 和 、 平 均值 、 最 小 值 及 最 
大 值 。SUM 和 AVG 天 数 只 能 对 数值 型 数据 进行 运算 ，MIN 和 MAX 函数 不 仅 可 以 对 数值 型 
数据 进行 运算 ， 还 可 以 对 日 期 和 字符 型 数据 进行 运算 。 











下 面 请 看 Query12。 
Query12 的 文本 描述 : 检索 所 有 产品 的 平均 价格 。 
Query12: SELECT AVG (productprice) 

FROM Product : 


这 个 查询 给 出 了 所 有 商品 价格 的 平均 值 。 图 5-12 是 Query12 的 查 
询 结果 。 CE -| 


继续 看 看 Query13 。 图 $-12 Query12 的 结果 


136 党 一 部 分 春 作 型 迷 据 寿 


Query13 的 文本 描述 : 输出 产品 总 个 数 ， 


Query13: sELEcT COUNT (*) 
FROM Product ; 
注意 ，AVG、SUM、MIN、MAX 这 几 个 函数 需要 指定 一 个 列 名 作为 其 计算 依据 (如 
Query12 中 的 AVG ( ProductPrice) 指定 了 列 ProductPrice)。 而 COUNT 函数 还 可 以 使 用 星 号 
(*) 作为 计算 依据 。 例 如 Query13 计算 了 PRODUCT 关系 中 共有 多 少 条 记录 ， 其 中 COUNT 
(* ) 中 的 星 号 表示 所 有 记录 ”Query13 计算 了 PRODUCT 表 中 记录 的 条 数 ， 图 5-13 给 出 了 该 


查询 的 结果 
在 Query13 中 ， 若 使 用 任意 一 个 列 名 (如 COUNT (ProductID) 或 COUNT 


(productName)) 代 符 星 号 作为 函数 的 计算 依据 ， 将 得 到 完全 相同 的 结果 ， 这 是 由 于 


PRODUCT 表 没 有 可 选 的 列 、 并 且 每 个 列 都 有 与 每 条 记录 相对 应 的 值 。 如 果 一 个 表 包 含 了 值 
为 空 的 可 选 列 ， 则 COUNT 函数 在 计算 时 会 跳 过 这 些 空 值 。 因 此 ， 当 列 中 存在 空 值 时 ， 使 用 
列 名 进行 计数 就 会 得 到 与 COUNT (*) 不 同 的 结果 。 

Query14 计算 了 表 PRODUCT 中 共有 多 少 个 不 同 的 代理 商 。 dai 

Query14 的 文本 描述 : 检索 出 售 产品 的 代理 商 总 数 ， : 

Query14: :er -OINT D1STINCT vendorid 
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图 5-13 Query13 的 结果 


图 5-1 4 给 出 i Query14 的 结 时， COHNNRSISTNCT VendoriD) 


如 Query15 所 示 ， 同 一 个 SELECT 语句 中 同样 可 以 使 用 多 上 
个 聚集 消 数 . 图 5-14 ”Query14 的 结果 
Query15 的 文本 描述 : 检索 种 类 编号 为 “CP” 的 商品 个 教 、 商 品 平均 价格 以 及 商品 的 
最 低 和 最 高 价格 ， 


Query15: screcr COUNTI*!1, AVGIproductprice), MINiproduetprice,, 


图 5-15 给 出 了 Query15 的 结 


COUNT(’) | AVG(ProductPrice) MIN(ProductPrice) ' MAX(ProductPrice) 
0 as 本 








图 $-15 Queryl1s 的 结 


5.14 GROUP BY 


在 SQL 查询 中 ， 聚 集 也 数 常常 结合 GROUP BY 关键 字 一 起 使 用 ， 这样 就 可 以 实现 对 
组 的 聚集 操作 ， 组 是 一 系列 相关 联 的 数据 记录 构成 的 集合 。 请 看 Query16. 
Query16 的 文本 描述 : 对 每 个 代理 商 ， 检 索 其 代理 商 编 号 、 所 供应 的 产品 总 数 及 所 供 


应 产品 的 平均 价格 。 
Query1 G6: seELECT vendorid, COUNTI*|), AVGIproductprice) 
FROM product 


GROUP BY veEndorid 
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图 5-16 给 出 了 Query16 的 结果 


VendorlD | COUNT(") AVG(ProductPrice) 
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图 5-16 ”Query16 的 结果 









如 图 5-16a 中 所 和 示 ，Query16 将 PRODUCT 关系 中 VendorID 值 相同 的 记录 归 为 一 组 ， 
然后 计算 该 组 中 记录 的 个 数 及 所 售 商 品 的 平均 价格 。 
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| Query 16 
PRODUCT 
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Group By VendorlD 














VendorlD 'PG, 
Count = 2, 
AVG(ProductPrice) = 95 


VendorlD MK 
Count= 4, 
AVG({(ProductPrice) = 121.25 
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图 5-16a Query16 图 解 


若 SELECT 语句 使 用 了 聚集 了 消 数 ， 则 单个 列 名 除非 出 现在 GROUP BY 子 名 中， 否则 不 
能 成 为 SELECT 语句 的 一 部 分 。 

下 面 的 例子 是 一 个 无 效 的 查询 ， 该 查询 试图 实现 Query16 描述 的 问题 。 

Query16: sgLEcT vendcrid，COUNT(*)，aVG(producrpricel) 


无 效 : FRoM product; ERROR MESSAGE RETURNED 
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为 实现 组 内 数据 的 聚集 操作 ， 初 学 者 在 使 用 SQL 查询 时 普遍 容易 出 错 。 如 在 Query16 
INVALID 中 ， 一 个 典型 的 错误 就 是 在 SELECT 语句 中 列 出 单个 列 名 及 相应 的 聚集 旺 数 ， 且 
没有 使 用 包含 该 列 的 GROUP BY 子 句 。 该 语句 会 报错 且 不 会 得 到 执行 。 查 询 无 效 的 原因 
在 于 ， 聚 集 函 数 (如 COUNT(*)、AVG(ProductPrice)) 需要 针对 多 条 记录 进行 计算 ， 计 
算 结 果 不 能 与 单个 记录 特定 列 的 值 混合 在 一 起 。 知 没有 GROUP BY 子 句 ，COUNT(*)、 
AVG(ProductPrice) 函数 就 只 能 应 用 到 整个 关系 表 ， 其 结果 就 是 一 个 计数 值 COUNT 和 一 
个 平均 值 AVG。 查 询 无 法 将 针对 整个 表 的 一 个 COUNT 值 和 一 个 AVG 值 与 表 中 每 条 记录 
的 VendorID 值 结合 起 来 。 因 此 为 了 使 查询 得 到 执行 ， 需要 在 查询 的 最 后 加 上 GROUP BY 
子 句 ， 如 Query16 所 示 。 在 Query16 中 ，GROUP BY 子 句 指明 了 表 中 COUNT(*) 以 及 
AVG(ProductPrice) 聚集 对 象 的 子 集 范 围 。 子 集 的 个 数 就 是 表 中 不 同 VendorID 的 个 数 ， 因 而 
每 个 VendorID 都 有 一 个 COUNT 值 和 一 个 AVG 值 与 之 对 应 (如 图 5-16 所 示 )。 

GROUP BY 子 句 的 使 用 规则 是 ， 出 现在 GROUP BY 子 句 后 的 列 也 应 该 在 SELECT 子 句 
之 后 出 现 。 若 一 个 查询 的 SELECT 子 句 后 面 并 没有 列 出 其 GROUP BY 子 句 后 出 现 的 列 ， 则 
该 查询 虽然 仍旧 会 被 执行 并 得 到 结果 ， 但 结果 往往 益处 不 大 。 请 看 Query17。 

Query17 的 文本 描述 : 对 每 个 代理 商 ， 检 索 其 供应 的 产品 数量 及 平均 价格 。 





Query17 : seLecr COUNT(*) ，RAVG(productprice) 
FROM product 

GROUP BY vendorid 

CRE ER 


图 5-17 给 出 了 Query17 的 结果 。 

查询 显示 了 正确 的 结果 ， 但 终端 用 户 可 能 会 不 明白 结果 图 5-17 Query17 的 结果 
中 的 值 所 指 代 的 含义 。 特 别 地 ， 终 端 用 户 更 加 无 法 意识 到 结果 的 第 一 行 指 代 代 理 商 PG， 第 
二 行 指 代 代 理 商 MK。 在 查询 的 SELECT 子 句 后 面 加 上 VendorID 后 (如 Query16 所 示 )， 查 
询 结 果 将 会 变 得 更 易 理解 。 

查询 可 以 把 WHERE 与 GROUP BY 结合 起 来 使 用 。 请 看 Query18。 

Query18 的 文本 描述 : 对 每 个 代理 商 ， 检 索 其 代理 商 编 号 、 所 售 产品 中 价格 大 于 等 于 





$100 的 产品 数量 。 
VendorlD | COUNTC) 
Query18: SELECT vendorid, COUNT(*) 
FROM product 
WHERE productprice >= 100 
GROUP BY vendorid; 图 S-18 Query18 的 结果 


图 5-18 给 出 了 Query18 的 结果 。 
Query18 将 PRODUCT 关系 中 产品 价格 ProductPrice 大 于 等 于 $100 且 具有 相同 
VendorID 值 的 记录 进行 分 组 。 查 询 给 出 了 每 个 组 的 VendorID 值 以 及 该 组 中 记录 的 个 数 。 
GROUP BY 子 句 还 可 以 对 多 个 列 同时 进行 分 组 。 请 看 Query19。 
Query19 的 文本 描述 : 考虑 所 有 产品 的 组 ， 每 个 组 内 的 产品 都 是 由 同一 个 代理 商 供应 且 
属于 同一 个 种 类 。 检 索 每 个 组 的 代理 商 编号 、 产 品种 类 编号 、 该 


组 中 产品 的 数量 及 平均 价格 。 
Query1 9, SELEcT vendorid, categoryid, COUNT(*), AVG (productprice,) 
FROM product 
GROUP BY vendorid, categoryid; 


图 5-19 给 出 了 Query19 的 结果 。 





VendoriD | CategoryiD | COUNT(") | AVG(ProductPrice) 














图 5-19 ”Query19 的 结果 





Query19 将 PRODUCT 关系 中 VendorID 值 与 CategorID 值 都 相同 的 记录 进行 分 组 ， 对 
每 个 组 给 出 其 VendorID 值 、CategoryID 值 、 组 内 记录 的 条 数 以 及 组 内 产品 的 平均 价格 。 
为 了 着 重 阐述 GROUP BY 的 概念 ， 让 我 们 再 来 看 看 两 个 SOLDVIA 关系 的 查询 。 


SOLDVIA 关系 包含 每 个 销售 交易 中 售 出 的 产品 信息 。 
SUM(NoOfitems) 
; 






首先 请 看 Query20. 
Query20 的 文本 描述 : 对 每 个 产品 ， 检 索 产 品 编号 以 及 在 
所 有 销售 交易 里 售 出 的 项 目 个 数 。 





Query20: SELECT productid, SIUM'noof itemsi 
FROM soldvia 
GROUP BY productid, 


图 5-20 给 出 了 Query20 的 结果 . 
接着 请 看 Query21。 
Query21 的 文本 描述 : 对 每 个 产品 ， 检 索 其 产品 编号 以 及 
包含 售 出 该 产品 的 销售 交易 个 数 。 


Query21: SELECT productid, COUNT (tidgd) 
FROM soldvia 
GROUP EY productid; 


图 5-21 给 出 了 Query21 的 结果 。 





5.15 HAVING 图 5-21 ”Query21 的 结果 


GROUP BY 子 句 后 面 可 以 跟 有 HAVING 关键 字 。HAVING 子 句 决定 了 查询 中 哪些 组 将 

在 结果 中 得 到 展示 ， 当 然 也 决定 了 哪些 组 不 在 结果 中 展示 。 有 HAVING 子 句 的 查询 必须 同 
时 包含 GROUP BY 子 句 。 请 看 Query22。 

Query22 的 文本 描述 : 考虑 产品 的 所 有 分 组 ， 每 个 组 的 产品 拥有 相同 的 种 类 且 由 同一 

个 代理 商 供 应 。 对 那些 包含 产品 个 数 大 于 1 的 组 ， 检 索 其 代理 

商 编号 、 产 品种 类 编号 、 组 内 产品 数量 以 及 组 内 产品 平均 价格 。 


Query22: sELEcT vendorid, categoryid, COUNT(*), AVG {productprice) 
FROM product 
GROUP BY vendorid, categoryid 
HAVING COUNT (Ce) 53. 1 


Query22 对 PRODUCT 关系 中 有 相同 的 VendorID 和 CategoryID 的 记录 进行 分 组 ， 并 对 产品 
个 数 大 于 1 的 组 ， 输 出 其 代理 商 编号 VendorID、 种 类 编号 CategoryID 、 组 内 产品 数量 以 及 
组 内 产品 平均 价格 。 图 5-22 给 出 了 Query22 的 结果 。 

正如 Query22 中 阐释 的 一 样 ，HAVING 对 分 组 的 记录 与 WHERE 子 句 有 相同 的 效果 。 
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WHERE 条 件 决定 哪些 记录 会 出 现在 结果 中 ， 哪 些 记 录 不 会 。HAVING 条 件 则 决定 哪些 组 会 
出 现在 结果 中 ， 哪 些 组 不 会 








图 5-22 Query22 的 结 赋 


WHERE 和 HAVING 可 以 出 现在 同一 个 查询 中 ， 如 Query23 所 示 。 

Query23 的 文本 描述 : 考虑 产品 的 所 有 分 组 ， 同 一 个 组 内 的 产品 有 相同 的 种 类 和 相同 
的 代理 商 ， 且 产品 价格 大 于 等 于 $50。 对 每 个 产品 数量 大 于 1 
的 组 ， 检 索 其 代理 商 编 号 、 产 品种 类 编号 、 组 内 产品 数量 以 及 


产品 的 平均 价格 。 
Query23: SELECT vendorid, categoryid, COUNT(*), AVG (productprice) 
FROM product 
WHERE productpricé >= 50 
GROUP BY vendorld, categoryid 
HAVING COUMT(N) ST. 


图 5-23 给 出 了 Query23 的 结果 . 


VendorliD CategorylD | COUNT(") | AVG(ProductPrice) 


图 5-23 ”Query23 的 结果 


Query23 将 找 出 PRODUCT 关系 中 ProductPrice 大 于 等 于 $50 的 所 有 记录 ， 然 后 把 具有 
相同 VendorID 和 CategoryID 的 记录 进行 分 组 .对 每 个 记录 个 数 大 于 1 的 分 组 ， 在 结果 中 列 
出 其 VendorID 、CategoryID 、 组 内 记录 数量 以 及 组 内 产品 平均 价格 。 

为 了 着 重 阐 述 HAVING 的 概念 ， 让 我 们 再 来 看 几 个 SOLDVIA 关系 中 带 有 HAVING 子 


句 的 GROUP BY 查询 的 例子 。 


首先 请 看 Query24。 
Query24 的 文本 描述 : 对 那些 在 所 有 的 销售 交易 中 被 售 出 超过 3 个 的 产品 ， 检 索 其 产 
品 编 号 以 及 被 售 出 的 总 个 数 。 





Query24: ssbgcT productid, SUM (noofitems) ProductiD 
FROM soldvia 
GROUP BY productid 
HAVING SUM (noofitems) > 3,; 4X4 
图 5-24 给 出 了 Query24 的 结果 。 图 5-24 ”Query24 的 结果 
接 下 来 请 看 Query25。 


Query25 的 文本 描述 : 对 那些 被 两 个 或 两 个 以 上 的 销售 交易 售 出 的 产品 ， 检 索 其 产品 编 


i 5 品 的 销 佳 交 女仆 
池 以 有 所 全 该 产 的 销售 到 易 的 个 






Query25: seLEgcT productid, COUNT (tid) TE 
FROM soldvia 
GROUP BY productid 2X2 
HAVING COUNT(tid) > 1; 


图 5-25 给 出 了 Query25 的 结果 。 图 5-25 ”Query25 的 结果 
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下 面 的 两 个 查询 是 上 面 两 个 查询 稍 作 改 变 后 的 版 本 ， 用 以 说 明 HAVING 子 句 中 的 分 组 
选择 条 件 可 以 包含 聚集 函数 . 旦 该 聚集 清 数 并 没有 出 现在 该 查询 的 SELECT 子 句 中 。 
Query26 的 文本 描述 : 对 那些 在 所 有 的 销售 交易 中 被 售 出 超过 3 个 的 产品 ， 检 索 其 产 





do 编 号 轴 | 
Query26: SELECT productid RE 
FROM soldvia 3X3 
GROUP BY productid 
HAVING SUM [nocticems) > 3; 4X4 
图 5-26 给 出 了 Query26 的 结果 . 图 5-26 ”Query26 的 结果 
在 Query26 中 ，HAVING 部 分 的 SUM(noofitems) 并 没有 出 现在 SELECT 子 句 中 . 
Query27 也 同样 说 明了 这 一 点 ， 该 查询 的 SELECT 子 句 并 没有 用 到 HAVING 子 句 的 聚集 也 


数 COUNT(tid)。 
Query27 的 文本 描述 : 对 那些 在 两 个 或 两 个 以 上 销售 交易 中 出 现 的 产品 ， 检 索 其 产品 编号 。 





Query27: SELECT product id 
FROM soldvia ProductlID 
Se BY es id | 1X1 
HAVING COUNT{tid) > 1:; 
图 5-27 给 出 了 Query27 的 结果 。 
5.16 ”内 套 查询 I 


有 时 一 个 查询 中 可 能 包含 其 他 一 个 或 多 个 查询 。 包 含 在 其 他 查询 里 的 查询 称 为 岂 套 查询 
(nested query) 。 航 套 查 询 也 称 为 内 部 查询 (inner query)， 包 含 了 退 套 查询 的 查询 则 称 为 外 部 
查询 (outer query ) 。 

例如 ， 现 有 一 个 查询 需要 检索 价格 低 于 平均 价格 产品 的 产品 编号 、 产 品名 称 及 产品 
格 。 如 Query28 中 所 示 ，WHERE 子 句 的 条 件 是 平均 价格 ， 而 平均 价格 是 另 一 个 查询 的 输出 
结果 。 在 这 种 情况 下 ，Query28 中 第 一 行 的 SELECT 查询 是 从 外 部 查询 开始 的 ， 圆 括号 里 面 
的 查询 就 是 藤 套 查询 (或 内 部 查询 )。 

Query28 的 文本 描述 : 对 所 有 价格 低 于 平均 价格 的 产品 ， 检 索 其 产品 编号 、 产 品名 称 


以 及 产品 价格 。 
Query28: SELEC productid, productname, productprice 
FROM product 
WHERE productprice < (SELECT AVG {productprice) 


FROM product).,; 


图 5-28 给 出 了 Query28 的 结果 ， 








图 5-28 ”Query28 的 结 


初学 者 的 为 一 个 常见 错误 ， 就 是 试图 把 Query28 写成 如 下 形式 : 
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Query28: SELECT productid, productname, productprice 
无 效 FPROM product 
WHERE productprice < AVG (productprice), 


ERROR MESSAGE RETURNED 

依照 句法 ， 聚 集 函 数 只 能 出 现在 SELECT 子 句 或 者 HAVING 部 分 。 关 一 个 聚集 函数 是 
在 SELECT 关键 字 与 FROM 关键 字 之 间 给 出 ， 那 么 该 聚集 函数 就 会 作用 到 关系 中 的 所 有 记 
录 ( 若 命令 中 没有 GROUP BY 子 句 ) 或 者 是 作用 到 组 内 的 所 有 记录 ( 知 命 令 中 含有 GROUP 
BY 子 句 )。 若 命令 中 使 用 了 GROUP BY， 则 聚集 柄 数 还 可 以 用 于 HAVING 分 组 选择 条 件 . 
SQL 查询 中 的 聚集 函数 除了 用 于 语句 中 的 SELECT 和 HAVING 部 分 以 外 ， 没 有 其 他 有 效 使 
用 形式 。 因 此， 上 面 的 Query28 INVALID 将 不 会 得 到 执行 。AVG(ProductPrice) 负数 必须 是 
对 整个 表 而 言 的 ， 但 在 Query28 INVALID 中 却 没 有 指明 AVG(ProductPrice) 所 对 应 的 表 


5 NN 


在 SQL 中 ，IN 关键 字 用 于 单个 值 与 多 个 值 组 合 而 成 的 集合 之 间 的 比较 。 请 看 Query29。 
Query29 的 文本 描述 : 对 那些 在 所 有 的 销售 交易 中 被 售 出 超过 3 个 的 产品 ， 检 索 其 产 


品 编 号 以 及 产品 价格 . 
Query29: SELECT productid, productname, productprice 
FROM Droduct 
WHERE Eroductid IN 
(SELECT productid 
FROM saldvia 
GROUP BY productid 
HAVING SUM (noofitems) > 3); 


图 5-29 给 出 了 Query29 的 结果 。 


ProductID | ProductName 


3X3 Cosy Sock 1 


图 5-29 ”Query29 的 结果 


这 个 查询 阐释 了 如 何 用 关键 字 IN 实现 与 数值 集合 的 比较 ， 该 数 全 集合 即 极 套 查 询 的 输 
出 结果 。Query29 中 的 艇 套 查询 (内 部 查询 ) 与 Query26 相同 ， 该 其 套 查 询 的 输出 结果 是 那 
些 被 售 出 数量 总 和 超过 3 个 的 所 有 产品 所 对 应 的 ProductID 构成 的 集合 。 换 言 之 ， 就 是 检查 
哪个 产品 的 编号 ProductID 与 该 集合 中 任意 一 个 值 相 匹配 。 对 于 那些 已 经 包含 在 集合 中 的 产 
， 本 次 查询 将 输出 其 产品 名 ProductName 以 及 产品 价格 ProductPrice - 
Query30 是 另 一 个 使 用 IN 语句 的 舱 套 查询 例子 。 
Query30 的 文本 描述 : 对 那些 被 两 个 或 多 个 销售 交易 售 出 的 产品 ， 检 索 其 产品 名 称 及 





产品 价格 。 
Query30: SELECT productid, productname, productprice 
FROM product 
WHERE productid IN 
(SELECT Productid 
FROM soldvia 
GROUP BY productid 
HAVING COUNT (E20. ® Li% 


图 5-30 给 出 了 Query30 的 结果 。 
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ProductiD | ProductName | ProductPrice 





Dura Boot 


图 5-30 Query30 的 结果 


Query30 中 的 持 套 查询 (内 部 查询 ) 与 Query27 由 同 ， 该 媒 套 查询 的 输出 结果 是 那些 出 
现在 两 个 或 两 个 以 上 销售 交易 中 的 产品 所 对 应 的 ProductID 构成 的 集合 。 外 部 查询 则 使 用 这 
个 集合 来 判断 哪个 产品 的 编号 与 集合 中 任意 一 个 值 相 匹配 。 对 这 些 匹配 成 功 的 产品 ， 查 询 和 输 
叫 其 产品 名 ProductName 以 及 产品 价格 ProduetPrice 


5.18 JOIN 


目前 为 止 我 们 讨论 的 查询 都 是 针对 单个 表 的 查询 ， 接 下 来 我 们 将 描述 如 何 同时 实现 多 个 
表 的 查询 。SQL 中 的 JOIN (连接 ) 操作 可 以 实现 这 一 功能 。Query31 给 出 了 JOIN 用 途 的 实例 。 
Query31 的 文本 描述 : 对 每 个 产品 ， 检 索 其 产品 编号 、 产 品名 称 、 产 品 代理 商 名 称 及 


这 可 

J 品 价 格 

Query31: SEL ETI procductid, Eroductname, vendorname, productprice 
he | “nar 
WEERE ErYoduct veryicrid = vendor .vendorild:;: 


图 5-31 给 出 了 Query31 的 结果 ， 


Dura Boot 


Easy Boot 





图 5-31 ”Query31 的 结 


对 每 个 产品 ，Query31 检索 了 产品 标识 、 产 品名 称 、 代 理 商 名 称 、 产 品 价格 。 其 中 
ProductID 、ProductName 以 及 ProductPrice 是 关系 PRODUCT 中 的 列 ， 而 YendorName 是 
男 一 个 关系 VENDOR 中 的 列 。 因 而 为 了 检索 到 需要 的 信息 ,我们 需要 同时 查询 两 张 表 。 
WHERE 关键 字 后 面 的 表达 式 就 是 JOIN 条 件 、 该 条 件 表 明了 两 张 表 是 如 何 进 行 连接 的 。 注 
意 ， 来 自 PRODUCT 关系 中 的 列 YendorID 以 及 来 自 VENDOR 关系 中 的 列 VendorID 前 面 都 
有 关系 名 和 一 个 圆 点 限定 。 这 种 限定 是 十 分 必要 的 . 因为 这 两 列 有 相同 的 名 字 ， 必 须 通过 关 
系 名 进行 区 分 。 

注意 理解 Query31 语句 中 JOIN 条 件 的 重要 性 : 

WHERE product .vendorid = vendor .vendorid; 

为 理解 查询 中 该 部 分 的 意义 和 重要 性 ， 下 面 请 看 Query32。Query32 同样 从 两 个 表 中 检 
索 了 数据 ， 但 是 却 没有 使 用 JOIN 条 件 。 
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Query32: SELECT productid, productname, verndorname, productprice 


FROM Product, vendor; 


图 5-32 给 出 了 Query32 的 结果 ， 


ProductiD | ProductName ProductPrice 
1X1 Zzz Bag Pacifica Gear | 100 


2X2 Easy Boot Pacifica Gear 70 
3X3 Cosy Sock 




































Dura Boot 


4X4 
5X5 Tiny Tent 
6X6 | Biggy Tent 


图 5-32 ”Query32 的 结果 


由 于 没有 使 用 JOIN 条 件 ，Query32 并 不 是 为 每 个 产品 分 别 输出 一 个 单独 的 记录 ， 而 
是 给 出 了 一 个 笛 卡 尔 积 .将 前 一 个 关系 中 的 每 条 记录 分 别 与 后 一 个 关系 中 的 每 条 记录 进 
行 连 接 。 不 管 两 条 记录 是 不 是 有 相同 的 VendorlD 值 ， PRODUCT 关 系 中 的 每 条 记录 与 
VENDOR 关系 中 的 每 条 记录 都 进行 了 连接 。 因 此 ，Query32 的 结果 一 共有 12 行 ， 这 是 因为 
PRODUCT 关系 有 6 条 记录 ，VENDOR 关系 有 2 条 记录 (6x2= 12). 

下 面 的 两 个 例子 说 明了 JOIN 操作 是 如 何 工 作 的 。 首先 请 看 Query33， 该 查询 是 
Query32 的 扩展 版 本 ， 查 询 输 出 了 PRODUCT 和 VENDOR 两 个 关系 进行 销 卡 尔 积 以 后 得 到 
的 所 有 列 。 

Query33: SELECT 


FROM prodwct, vendor’; 
图 5-33 给 出 了 Query33 的 结果 。 
来 自 关系 PRODUCT 来 自 关系 VENDOR 








4X4 Dura Boot 90 | PG Pacifica Gear 
re ovaBoo | 00 Fe ww onien rg 
exe Bo ew la Iv [op [we [owen ng 


图 5-33 ”Query33 的 结果 
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接 下 来 请 看 Query34， 该 查询 在 Query33 的 基础 上 添加 了 JOIN 条 件 . 
Query34: sErEecT 。 


FROM product, vendor 
WHERE product .vendorid = vendor .vendorid; 
图 5-34a 给 出 了 Query34 产生 的 结果 。 
来 自 关系 PRODUCT 来 日 关系 VENDOR 





ProductName ProductPrice | VendorlD CategorylD | VendorlD 


3X3 | Cosy Sock | 15 MK | FW 
ww 


WK Mownian King 
[rm 

Po 
] We 
[rm 





ProductID 

























X2 Easy Boot 












5X5 Tiny Tent | 150 





Biggy Tent 





product.vendorid = vendor.vendorid 


图 5-34a Query34 结果 的 产生 


查询 语句 的 SELECT 和 FROM 子 句 创建 了 一 个 笛 卡 尔 积 (PRODUCTVENDOR )。 继 
而 如 图 5-34a 中 所 示 ， 查 询 语 句 中 的 JOIN 条 件 ( 即 WHERE 子 句 ) 将 识别 出 那些 来 自 [49| 
PRODUCT 关系 的 VendorID 值 与 来 自 VENDOR 关系 的 VendorID 值 相 匹配 的 所 有 记录 - 一 
旦 有 这 样 的 记录 行 ， 则 显示 出 来 。 图 5-34b 给 出 了 Query34 的 结果 ， 


ProductiD | ProductName | ProductPrice | VendoriD | CategorylD | VendorlD | VendorName 


a li IPG cr 
DuaBoo | 90 
2 EyBoo | 7 IM Fw IM [MomanKng 
x3 coyso |15 IM Fw IM ~ [Moankng 
5x5 lnvien 150 Iv icp jw 
x6 |BegTew |250 [Mm lop Tw |Mounan King 


图 5-34b ”Query34 的 结 
要 把 Query34 变 成 Query31， 只 需要 将 SELECT 关键 字 后 面 的 星 号 改 为 需要 陈列 的 列 
名 :ProductID 、ProductName 、VendorName 、ProductPrice - [150 
5.19 别名 


在 查询 语句 的 FROM 子 句 中 ， 每 个 关系 都 可 以 设 定 一 个 别名 (alias)。 别 名 可 以 是 任意 
一 个 其 他 的 名 字 (通常 较 短 )。 查 询 中 的 任何 地 方 都 可 以 使 用 别名 来 代替 长 的 关系 名 。 








-六 


146 旬 一 部 分 “ 提 作 型 妆 据 订 


别名 可 以 是 一 个 或 多 个 字符 ， 首 字符 必须 与 原名 首 字符 一 致 ， 其 余 字 符 可 以 是 任意 字 蔷 
或 数字 。 

别名 本 身 对 查询 没有 影响 ， 但 却 可 以 提高 查询 的 可 读 性 ， 以 方便 需要 阅读 这 些 碍 询 的 用 
户 或 开发 人 员 。 若 我 们 在 每 个 列 名 之 前 加 上 关系 的 别名 ， 这 样 就 可 以 明显 看 出 这 个 列 出 目 哪 
个 关系 。 设 定 了 别名 以 后 ， 则 不 需要 在 每 个 列 前 面 加 上 实际 的 表 名 ， 而 是 可 以 使 用 更 短 的 别 
名 来 精 前 查询 语句 的 长 度 。 

例如 ，Query31 中 使 用 了 别名 以 后 的 不 同形 式 见 Query31a。 


Query31a: SELECT Pp.broductid, p.productname, Vv.vendorname, Pp.productprice 
FROM Eroduct p, vendor vy 
WHERE p.vendorid = .vendcriG: 


Query31a 和 Query31 的 执行 过 程 完 全 相同 ， 输 出 的 记录 行 也 完全 相同 。 该 查询 所 做 的 形式 
改变 仅仅 是 为 了 提高 可 读 性 。 在 语句 的 FROM 部 分 ，PRODUCT 关系 后 面 紧 跟 的 是 其 别名 
p ; 类 似 地 ，VENDOR 关系 的 别名 是 v。 查 询 中 的 其 他 地 方 使 用 了 这 些 别名 ， 以 指明 菏 个 列 
出 自 的 关系 。 

别名 还 可 以 用 来 重 命名 查询 得 到 的 列 ， 如 Query31b 所 示 。 


Query31b: SELECT p.Pproductid pid, p.productname pname, 
v.vendorname vname, p.productprice pprice 
PROM product p, vendor vy 
WHERE p.vendorid = vv.vendoriad; 


Query31b 和 Query31 的 执行 过 程 与 输出 记录 行 也 是 相同 的 ， 唯 一 的 区 别 在 于 该 查询 结果 中 
列 名 将 使 用 别名 而 不 是 使 用 原来 的 列 名 ， 如 图 5-31b 所 示 。 


| 


Mountain King 70 

x3 | Cosy Sock | Mounian King | 15 
4 | Dura Boot | Paoiica Gear | 90 
Biggy Tent | Mountain King 


图 5-31b ”Query31b 的 结果 
WHERE 子 句 中 的 列 名 不 能 使 用 别名 ， 必 须 使 用 其 本 身 的 列 名 ， 在 GROUP BY 和 
HAVING 子 句 中 同样 如 此 。 关 系 表 的 别名 没有 类 似 限 制 ， 可 以 用 于 SELECT 语句 的 任何 地 方 。 
使 用 别名 的 语句 中 还 可 以 使 用 SQL 关键 字 AS， 如 Query31c 中 所 示 。 








Query31c: SELECT Pp.productid AS pid, p.productname AS pname, 
v.vendorname AS vname, p.Productprice AS pprice 
FROM product p, Vvendor vy 
WHERE p.vendorid = v.vendorid; 


Quer31c 与 Query301b 的 执行 过 程 以 及 执行 结果 完全 相同 。 


5.20 多 关系 连接 


一 个 查询 可 以 包含 多 个 JOIN 来 连接 多 个 关系 。 请 看 Query35。 
Query35 的 文本 描述 : 对 销售 交易 的 每 一 行 ， 检 索 交 易 标 识 、 交 易 日 期 、 售 出 的 产品 
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名 称 、 售 出 数量 以 及 产品 交易 金额 。 


Query35: SELECT t,tid, t.tdate, p.productname., 
sv.noofitems AS quantity 
(sv .noofitems * p.productprice) AS amount 


FROM produ 上 p, salestransaction t, soldvia sv 
WHERE Sy a G = p.productid AND 

Ed = Kolkod 
ORDER BY bE es 


对 每 一 行销 售 交 易 记 录 ，Query35 检索 其 交易 标识 、 交 易 日 期 、 售 出 的 产品 名 、 售 出 数量 
以 及 交易 金额 。TID 和 TDate 两 个 列 来 自 于 SALESTRANSACTION 关系 。ProductName 是 
PRODUCT 关系 中 的 列 。NoOfIltems 列 来 自 于 SOLDVIA 关系 ， 并 且 在 结果 中 被 重 命名 为 数 
量 Quantity。 人 金额 Amount 来 自 SOLDVIA 关系 中 的 NoOfItems 列 以 及 PRODUCT 关系 中 的 
ProductPrice 列 。 

Query35 的 WHERE 子 句 中 的 AND 操作 连接 了 两 个 JOIN 条 件 : 一 个 条 件 连 接 SOLDVIA 
关系 与 PRODUCT 关 系 ， 另 一 个 则 连接 SOLDVIA 关系 和 SALESTRANSACTION 关系 . 
Query35 的 查询 结果 如 图 5-35 所 示 。 











ProductName 


和 
a9 oaANi3 [aa Too 
TozjAN1a | Due Bo 1 | 0 


图 5-35 ”Query35 的 结 
到 目前 为 止 ， 本 书 介 绍 了 用 于 创建 和 移 除 关系 以 及 在 关系 中 插入 数据 、 检 索 数据 的 相 


关 SQL 语句 。 接 下 来 ， 本 书 将 会 演示 如 何 利用 SQL 改变 关系 的 结构 (用 ALTER TABLE 命 
令 )、 修 改 关 系 中 的 数据 (用 UPDATE 命令 ) 以 及 删除 关系 中 的 数据 (用 DELETE 命令 )。 





















5.21 ALTER TABLE 


ALTER TABLE 命令 用 于 修改 已 创建 的 关系 结构 。 例 如 ， 若 用 户 想 要 问 关 系 VENDOR 
中 增加 一 个 可 选 列 VenderPhoneNumber， 就 需要 使 用 以 下 ALTER TABLE 语句 : 


Alter 语句 1: ALTER TABLE vendor ADD 
( vendorphonenumber CHAR (11}1). 


这 条 语 各 9 将 会 在 关系 VERDOR 中 增加 一 个 新 的 列 。VERDOR 中 每 一 条 记录 对 应 该 列 的 值 


都 被 初始 化 为 NULL. 
ALTER TABLE 语句 也 可 以 用 来 删除 列 。 例 如 ， 如 果 用 户 想 要 删除 关系 VENDOR 中 的 列 
VenderPhoneNumber， 则 可 以 使 用 以 下 语句 : 


昌 请 查看 本 章 5.40.4 节 SQL 语法 差异 说 明 中 有 关 ALTER TABLE 在 不 同 RDBMS 软件 中 的 不 同 语义 。 








148 和 一 部分 ” 抽 从 并 数 握 庚 


Alter 语句 2: ALrER TaBLE vendor DROP 


vendorphonenumber})., 
除了 增加 和 删除 列 之 外 ，ALTER TABLE 命令 还 可 用 于 其 他 关系 结构 的 改变 操作 ， 本 章 后 面 
部 分 将 会 给 出 介绍 。 


5.22 UPDATE 


SQL 中 UPDATE 命令 用 于 修改 存 于 数据 库 关系 中 的 数据 。 我 们 可 以 使 用 以 下 INSERT 
INTO 语句 向 关系 PRODUCT 中 插入 一 件 新 的 产品 : 

Insert 语 铅 1: INSERT INTO product VALUES ('7x7','Airy Sock',1000, 'MK','CP'); 
新 插入 产品 的 实际 价格 本 是 $10, 但 由 于 使 用 INSERT INTO 语句 时 输入 错误 ， 误 将 关 
系 PRODUCT 中 此 产品 的 价格 设 定 为 了 $1000。 为 了 修改 此 产品 的 价格 ， 需要 用 到 如 下 
UPDATE 语句 : 


Update 语句 1， UPDRATE product 
SET productprice = 40 
WHERE productid = TXTY 7; 


在 以 上 UPDATE 语句 中 ， 关 键 词 UPDATE 后 面 是 待 更 新 记录 所 在 表 的 表 名 。SET 子 句 指定 
哪 列 (或 多 列 ) 将 被 更 新 及 更 新 为 何 值 。WHERE 子 句 选择 哪些 记录 将 被 更 新 。 
我 们 可 以 使 用 如 下 ALTER TABLE 语句 实现 向 关系 PRODUCT 中 再 增加 一 列 : 


Alter 语句 3: aALTER TABLE product ADD 
(discount NUMERICI(3 ,21) 


初始 时 关系 PRODUCT 中 新 增加 的 Discount 列 都 被 赋值 为 NULL。 假 设 现 需 要 对 所 有 产品 
设 定 20% 的 折扣 ， 则 需要 使 用 如 下 UPDATE 语句 : 


Update 语句 2: upPpaTE product 


SET discount = 0.2， 
由 于 该 UPDATE 语句 中 没有 WHERE 子 句 ， 因 而 所 有 记录 的 Discount 列 都 将 被 设 为 0.2。 
假设 现在 我 们 需要 将 供应 商 MK 所 提供 产品 的 折扣 增加 到 30%。 那 么 就 需要 使 用 如 下 
UPDATE 语句 : 


Update 语句 3: product 
SET Aiscount = 0.3 
WHERE vendorid = :MK'; 


现在 所 有 供应 商 为 MK 的 记录 ， 其 Discount 列 的 值 均 更 改 为 0.3。 
如 果 我 们 不 再 需要 列 Discount， 则 可 用 如 下 ALTER TABLE 语句 删除 该 列 : 


Alter 语句 4: ALTER TABLE product DROF 
(discountci},; 
S23 DELETE 


SQL 中 DELETE 命令 用 于 删除 数据 库 关系 中 的 数据 。 如 果 要 从 关系 PRODUCT 中 删除 
Product ID 为 7x7 的 产品 ， 就 可 以 使 用 如 下 DELETE 语句 : 


Delete 语句 1: pzLeTE FRoM product 
WHERE Droductid ss 7XT7',; 
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在 上 面 的 DELETE 语句 中 ， 关 键 词 DELETE FROM 后 面 是 待 删除 记录 所 在 表 的 表 名 。 
WHERE 子 句 确定 哪 条 记录 (哪些 记录 ) 将 被 删除 。 注 意 ， 如 果 DELETE 子 句 没有 WHERE 
条 件 ， 则 整个 表 的 所 有 记录 都 将 被 删除 。 这 种 情况 下 ， 虽 然 表 中 所 有 记录 都 被 删除 了 ， 但 是 
表 结 构 仍 然 存 在 。 这 和 使 用 DROP TABLE 命令 不 同 ，DROP TABLE 命令 会 同时 删除 表 中 所 
有 记录 以 及 表 结 构 本 身 。 

事实 上 ，INSERT INTO、DELETE 、UPDATE 语句 通常 不 是 由 负责 数据 修改 和 删除 的 终 
端 用 户 直 接 写 出 的 。 通 常 的 做 法 是 用 户 通 过 第 6 章 所 述 表 单 ( form) 等 前 端 软 件 ( front-end 
application) 来 完成 这 些 操 作 。 前 端 软件 将 代替 终端 用 户 生 成 UPDATE 和 DELETE 等 语句 ， 
从 而 完成 数据 修改 和 数据 删除 等 操作 。 


5.24 CREATE VIEW 和 DROP VIEW 


视图 (view) 是 SQL 中 的 一 种 机 制 ， 该 机 制 允 许 查询 的 结构 保存 在 RDBMS 中 。 视 图 也 
称 为 虚 表 ， 也 就 是 说 它 不 是 一 个 实 表 ， 也 没有 任何 物理 存储 的 数据 。 视 图 被 调用 时 ， 执 行 的 
是 从 实 表 中 检索 数据 的 操作 。 视 图 可 以 像 其 他 存储 在 数据 库 中 的 表 一 样 用 在 SELECT 语句 
中 。 比 如 ， 视 图 中 的 列 可 以 被 选择 ， 也 可 以 和 其 他 表 或 视图 建立 连接 ， 视 图 中 的 数据 还 可 以 
被 分 组 ， 等 等 。 

利用 如 下 CREATE VIEW 语句 创建 视图 PRODUCTS _ MORE THAN 3 SOLD。 

Create View 语句 1: 


CREATE VIEW products more than 3 sold AS 


SELECT productid, productname, productprice 
FROM Product 
WHERE productid IN 

(SELECT DEGdWMCEILa 

FROM soldvia 

GROUP BY Broduecrt id 

HAVING SUMInCeoft IEtemSs) > 31 | 


以 上 语句 将 Query29 保存 为 一 个 视图 ， 这 样 它 就 可 以 用 在 任意 的 SELECT 查询 的 
FROM 部 分 。 为 此 ，Query29 就 可 以 执行 如 下 。 
QUuery29a: sELEcT 
FROM products _ more than 3 sold; 
执行 Query29a 和 Query29 将 会 产生 同样 的 结果 ， 如 图 5-29 所 示 。 
以 下 语句 将 会 创建 视图 PRODUCTS IN MULTIPLE TRNSC。 
Create View 语句 2: 


CREATE VIEW Products in multiple trnsc As 
SELECT productid, productname, productprice 
FROM product 
WHERE productid IN 
(SELECT productid 
FROM soldvia 
GROUP BY productid 
HAVING COUNT (EQ) 1)» 


此 视图 同样 可 以 像 其 他 常规 表 一 样 被 查询 。 如 Query30a 所 示 。 


Query30a: sELEcT 
FROM Broducts 17 multiple trnsc; 


执行 Query30a 和 Query30 将 会 产生 同样 的 结果 ， 如 图 5-30 所 示 。 
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若 需 要 移 除 一 个 视图 ， 则 可 用 DROP VIEW 语句 。 以 下 两 条 语句 将 移 除 之 前 创建 的 两 个 
视图 。 
Drop View 语句 1. DROP VIEW products more than 3 sold， 


Drop View 语句 2:， DROP VIEW products in multiple trnsc; 


当然 、， 如 果 需 要 再 次 创建 以 上 视图 ， 我 们 可 以 简单 地 再 次 执行 Create View 语句 1 和 Create 


View 语句 2。 
5.25 集合 运算 : UNION、INTERSECT、EXCEPT(MINUS) 


SQL 同样 支持 标准 的 集合 运算 ( set operator) : 并 运算 、 交 运算 和 差 运 算 。SQL 中 的 集 
合 运 算 用 于 合并 两 条 或 者 多 条 能 相 容 的 SELECT 语句 所 产生 的 结果 。 
定义 两 个 集合 相 容 ， 要 求 这 两 个 集合 列 的 数目 相同 ， 且 每 个 列 的 数据 类 型 相 匹配 。 换 句 
话说 ， 一 个 集合 的 第 一 列 的 数据 类 型 能 兼容 另 一 个 集合 第 一 列 的 数据 类 型 ， 第 二 列 的 数据 类 
型 兼容 另 一 个 集合 第 二 列 的 数据 类 型 ， 以 此 类 推 。 
合 运算 可 以 合并 SELECT 语句 查询 关系 表 、 视 图 或 者 其 他 SELECT 查询 所 产生 的 结果 。 
为 了 演示 SQL 中 的 集合 运算 ， 我 们 将 会 利用 SELECT 语句 查询 视图 PRODUCTS 
MORE THAN 3 SOLD 和 PRODUCTS IN MULTIPLE TRNSC (假设 上 一 节 的 CREATE 
VIEW 语句 被 再 次 执行 )。 注 意 ， 这 两 个 视图 是 相 容 的 ， 因 为 它们 的 列 的 数目 相同 且 有 相 匹 
配 的 数据 类 型 。 
Query36 将 演示 UNION (并 ) 运算 的 用 法 。 
Query36 的 文本 描述 : 检索 所 有 满足 条 件 的 产品 的 product id, product name 和 product 
price， 条 件 为 该 产品 在 所 有 的 销售 事务 中 售 出 超过 三 件 ， 或 者 
该 产品 在 超过 一 条 销售 事务 中 被 售 出 。 


Query36: sgLEcr 


FROM products more than 3 _ sold 
UNION 

SELECT 

FROM products in multiple rnsc:; 


Query36 的 结果 如 图 5-36 所 示 。 


ProductID | ProductName 


ProductPrice 
ii |zzeg li | 
Cosy Sock 
ax4 |bwagoo |90 | 


图 5-36 ”Query36 的 结果 


在 Query36 中 ， 第 一 条 SELECT 子 句 找 到 在 所 有 的 销售 事务 中 售 出 超过 三 件 的 产品 集 
合 〈 见 图 5-29 )， 第 二 条 SELECT 子 句 找到 在 超过 一 条 销售 事务 中 被 售 出 的 产品 集合 ( 见 
图 5-30 ) 。 并 运算 合并 这 两 个 集合 并 且 消 除 重复 。 如 果 某 一 产品 售 出 超过 三 件 并 且 在 超过 一 
条 销售 事务 中 出 现 ， 则 这 一 产品 只 会 被 列 出 一 次 。 
Query37 演示 的 是 INTERSECT ( 交 ) 运算 的 用 法 。 











锡 $ 莫 SQL 151 


Query37 的 文本 描述 : ”检索 所 有 满足 条 件 的 产品 的 product id, product name 和 product price， 
条 件 为 该 产品 在 所 有 的 销售 事务 中 信 出 超过 三 件 ， 同 时 该 产品 在 
址 二 一 条 销售 事务 中 被 售 出 : 


Guery37 : seLEcT 


FROM products in multiple trnsc; 


Query37 的 纺 果 如 图 5-37 所 示 : 


ProductlD ProductName | ProductPrice 
[> 
14X4 | Dura Boot 90 

图 5-37 ”Query37 的 结果 


在 EA 和 Query37 中 ， 第 一 条 SELECT rie ean 
件 的 产 ， 第 二 条 SECEBCT 子 名 找到 在 超过 _ 条 销售 事务 中 被 售 出 的 产品 集合 
算 接 到 的 是 同时 出 现在 这 两 个 集合 中 的 产品 。 
Query38 演示 的 是 MINUS ( 差 ) 运算 的 用 法 ,在 某 一 确定 的 RDBMS SQL 实现 中 也 称 为 
EXCEPT®?. 
Query38 的 文本 描述 : 检索 所 有 满足 条 件 的 产品 的 product id、product name 和 product 
price， 条 件 为 该 产品 在 所 有 和 销售 事务 中 售 出 超过 三 件 ， 但 是 该 
产品 没有 在 超过 一 条 销售 事务 中 被 售 出 . 
Query38: SELSCT 


Croducts more than 3 sold 


4 | < 
MINUS 

SELECT 

FROM Lroducts In multiple trnsc, 


Query38 的 结果 如 图 5-38 所 示 。 


ProductiD | ProductName | ProductPrice 


CosySock ls | 
图 5-38 Query38 的 结果 
在 以 上 的 两 个 查询 中 ， 对 于 Query38， 第 一 条 SELECT 子 句 找到 在 所 有 的 销售 事务 中 售 
PN 件 的 产品 集合 ， 第 二 条 SELECT 子 句 找到 在 超过 一 条 销售 事务 中 被 售 出 的 产品 集 
运算 得 到 出 现在 第 一 个 集合 但 没有 出 现在 第 二 个 集合 里 的 所 有 产品 。 


5.26 ”使 用 其 他 SQL 命令 的 实例 


本 章 到 目前 为 止 ， 我 们 用 ZAGI Retail Company Sales Department Database 作为 例子 概 
述 和 演示 了 最 常用 的 SQL 命令 和 语句 。 接 下 来 ,我 们 将 用 男 一 个 示例 数据 库 HAFH Realty 
Company Property Management Database 补充 一 些 SQL 命令 和 语句 ， 同 时 介绍 一 些 附加 的 
SQL 命令 。 该 数据 库 的 ER 图 和 关系 模式 已 在 第 3 章 的 图 3-59 给 出 ， 为 方便 起 见 ， 这 里 重 
新 给 出 ， 如 图 5-39a 所 示 。 


全 请 查看 本 章 5.40.5 节 SQL 语法 差异 说 明 中 有 关 交 和 差 运算 在 不 同 RDBMS 软件 中 的 其 他 语义 。 
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STAFFMEMBER 


SMemberName 






SMemberlD 





INSPECTOR INSPECTING 













InsID ‘Fx) 
BuildingID (rx 


InsID 
INsName 



















MANAGER DateLast 
DateNext 
ManageriD BUILDING 
Name 
MtLname BuildingID APARTMENT CLEANING 
MBDate BNoOfFioors 
MSalary ManagerlD (Fk) AptNo AptNo | (FK) 
po BuildingID (FR) BuildingID | 
NE 本 ye ANoOfBedrooms SMemberID (Fk) 
de Ml Aad do CCID (O)(FK) 
CORPCLIENT 
MANAGERPHONE CCID STAFFMEMBER 
CCName lu SMemberID 
CCJIndustry SMemberName 





CCLocation 
CCiDReferredBy (O)(rx) 






MPhone 
ManagerlD (rx) 


图 5-39a HAFH 房地产 公司 物业 管理 部 门 数据 库 : ER 图 及 关系 模式 





5.27 CREATE TABLE (附加 实例 ) 


首先 请 看 图 5-39b 所 示 的 CREATE TABLE 语句 集合 ， 这 些 语句 用 来 为 图 5-39a 所 示 的 
HAFH Realty Company Property Management Database 创建 关系 模式 。 

关于 图 5-39b 所 示 的 CREATE TABLE 语句 ， 考 虑 如 下 注释 信息 。 

如 图 5-39a 所 示 ， 实 体 CORPCLIENT 的 CCID 和 CCName 属性 都 是 唯一 的 。 在 创建 关 
系 CORPLIENT 的 CREATE TABLE 语句 中 ， 我 们 将 CCID 指定 为 主 码 。 为 了 标识 候选 码 ， 
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CCName 也 是 唯一 的 。 在 CREATE TABLE 语句 中 ， 我 们 将 CCName 设计 为 独立 的 一 列 。 








CREATE TABLE manager 









( managerid CHAR (4) NOT NULL, 
mfname VARCHAR (15) NOT NULL, 
miname VARCHAR (15) NOT NULL, 
mpbdate DATE NOT NULL, 
msalary NUMERIC1(9，2) NOT NULL， 
mbonus NUMERIC(9,2), 
mresbuildingid CHAR (3}), 






PRIMARY KEY (manager1id) ) ; 


TABLE managerphone 
( managerid CHAR (4) NOT NULL, 
mphone CHAR (11) NOT NULL, 
PRIMARY KEY (managerid, mphone), 

FOREIGN KEY (managerid) REFERENCES manager (managerid) ); 

















TABLE building 







( buildingia CHAR (3) NOT NULL, 
bnooffloors INT NOT NULL, 
bmanagerid CHAR (4) NOT NULL, 







PRIMARY KEY (buildingid), 
FOREIGN KEY (bmanagerid) 







REFERENCES manager (managerid) ),， 








TABLE inspector 
( insid CHAR (3) NOT NULL, 
insname VARCHAR (15) NOT NULL, 
PRIMARY KEY (insid) ) : 


















TABLE inspecting 






( insid CHAR (3) NOT NULL, 
buildingid CHAR (3) NOT NULL, 
datelast DATE NOT NULL, 
datenext DATE, NOT NULL, 






PRIMARY KEY (insid, buildingiad), 
FOREIGN KEY (insid) REFERENCES inspector (insid), 
FOREIGN KEY (buildingid) REFERENCES building (buildingid) ) ， 

















TABLE corpclient 








( Gelid CHAR (4) NOT NULL, 
ccname VARCHAR (25) NOT NULL, 
ccindustry VARCHAR (25) NOT NULL, 
cclocation VARCHAR (25) NOT NULL, 
ccidreferredby CHAR (4) ， 






PRIMARY KEY (ccid), 
UNIQUE (ccname), 
FOREIGN KEY (ccidreferredby) REFERENCES corpclient (ccid) ) ; 















TABLE apartment 








( buildingid CHAR (3) NOT NULL, 
aptno CHAR (5) NOT NULL, 
anoofbedrooms INT NOT NULL, 
Scid CHAR (4), 






PRIMARY KEY (buildingid, aptno), 
FOREIGN KEY (buildingid) REFERENCES building (buildingid), 
FOREIGN KEY (ccid) REFERENCES corpclient (ccid) ) ; 







图 5-39b HAFH 房地产 公司 物业 管理 部 门 数据 库 的 CREATE TABLE 语句 
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CREATE TABLE staffmember 

( smemberid CHAR (4) NOT NULL, 
smembername VARCHAR (15) NOT NULL, 
PRIMARY KEY (smemberid) ) ; 


TABLE cleaning 
buildirngid CHAR {3) NOT NULL, 


aptno CHAR {5) NOT NULL, 
smemberid CHAR (4) NOT NULL, 
CONSTRAINT cleaningpk PRIMARY KEY (buildingid, aptno, smemberid), 
CONSTRAINT cleaningfk FOREIGN KEY (buildingid, aptno) 

REFERENCES apartment (buildingid, aptno) ); 


CONSTRAINT cleaningfk2 FOREIGN KEY (smemberid) 
REFERENCES staffmember (smemberid) ): 





图 5-39b ( 续 ) 


实体 MANAGER 的 Bonus 属性 和 实体 APARTMENT 的 CCID 属性 是 可 选 的 。 因 此 ， 
关系 MANAGER 中 的 Bonus 列 和 关系 APARTMENT 中 的 CCID 列 都 是 可 选 的 ， 同 时 没有 
NOT NULL 限制 。 

一 个 客户 可 以 但 不 是 必须 被 其 他 客户 参照 。 因 此 ， 关 系 CORPCLIENT 中 的 CCID- 
ReferredBy 外 码 是 可 选 列 。 同 时 ， 关 系 CORPCLIENT 中 的 CCIDReferredBy 列 没 有 NOT 
NULL 限制 。 

实 体 MANAGER 和 BUILDING 之 间 存 在 ResidesIn 和 Manages 两 个 联系 。 关 系 
MANAGER 中 的 MResBuildingID 列 作 为 外 码 参 照 到 关系 BUILDING， 以 实现 联系 ResidesIn。 
关系 BUILDING 中 的 BManagerID 列 作为 外 码 参 照 到 关系 MANAGER ， 以 实现 联系 Manages。 
由 于 在 用 于 创建 关系 MANAGER 的 CREATE TABLE 语句 里 ， 并 没有 将 MResBuildingID 这 
一 列 初 始 声明 为 外 码 ， 因 此 我 们 需要 在 最 后 引用 关系 BUILDING 时 将 MResBuildingID 声 
明 为 外 码 。 然 而 ， 只 要 关系 MANAGER 比 关 系 BUILDING 先 创建 ， 我 们 就 不 能 在 创建 关 
系 MANAGER 的 CREATE TBALE 语句 里 声明 参照 到 关系 BUILDING 的 外 码 。 因 为 ， 关 系 
BUILDING 不 存在 。 为 解决 这 个 问题 ， 在 最 初创 建 表 的 时 候 ， 不 是 将 MResBuildinglD 作为 外 
码 而 是 作为 非 外 码 对 待 。 稍 后 ， 我 们 将 会 演示 如 何在 已 有 关系 中 添加 参照 完整 性 约束 。 

联系 Refer 是 一 元 联系 。 创 建 CORPCLIENT 关系 的 CREATE TABLE 语句 中 将 会 演示 
一 元 联系 如 何 实现 。 外 码 CCIDReferredBy 参照 关系 CORPCLIENT 自身 的 主 码 。 

为 了 说 明 这 些 约束 (比如 主 码 和 外 码 的 声明 ) 可 以 有 名 称 ， 我 们 在 创建 关系 CLEANING 
的 CREATE TABLE 语句 中 命名 了 它 的 约束 。 为 约束 命名 并 不 是 必需 的 ， 但 有 时 会 很 实用 。 
在 本 章 接 下 来 的 约束 管理 实例 中 ， 将 会 演示 一 个 为 约束 命名 的 实用 性 例子 。 


5.28 INSERT INTO (附加 实例 ) 


数据 库 HAFH Realty Company Property Management Database 的 数据 记录 在 第 3 章 的 
图 3-60 中 ， 为 方便 使 用 ， 这 里 将 重复 给 出 ， 如 图 5-39c 所 示 。 


日 在 MANAGER 关系 之 前 创建 BUILDING 关系 ， 这 样 可 以 让 MResBuildingID 列 成 为 MANAGER 关系 的 外 码 


但 同时 又 阻止 了 关系 BUILDING 中 的 BManagerID 列 成 为 外 码 。 换 言 之 ， 一 个 问题 会 被 另 一 个 问题 取代 。 
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BUILDING 






BManageriD 














ANoOfBedrooms | CCID 


C111 


| 
| 
C777 


DateLast 
15-MAY.2012 
17-FEB-2013 
17-FEB-2013 
11-JAN-2013 
12-JAN-2013 
3 [84 11JANg013 |11JAN-2014 









BuildinglD | AptNo 
B1 


0 















BuiidinglD 












M34 555-9999 





图 5-39c HAFH 房地产 公司 物业 管理 部 门 数据 库 的 样本 数据 记录 
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考察 图 5-39d 所 示 的 INSERT INTO 语句 ， 它 是 用 于 为 数据 库 HAFH Realty Company 
Property Management Database 插入 数据 记录 的 。 








INSERT INTO manager VALUES {({'M12', 'Boris', 'Grant', '20/Jun/1980', 60000, null, null); 
INSERT INTO manager VALUES ('M23', ‘Austin', 'Lee', ‘'30/0ct/1975', 50000, 5000, null); 
INSERT INTO manager VALUES ('M34', 'George', ‘'Sherman!’, '1ll/Jan/1976', 52000, 2000, null); 














INSERT INTO managerphone VALUES ('M]2','555-2222')， 
INSERT INTO managerphone VALUES ('M12','555-3232'),， 
INSERT INTO managerphone VALUES ('M23'，'555-9988 :) ; 
INSERT INTO managerphone VALUES (‘M34','5S5-9999'),，; 
















INSERT INTO building VALUES ('Bi', 'S', ‘M12'); 
INSERT INTO building VALUES ('B2', '6', 'M23'),， 
INSERT INTO building VALUES ('B3', ‘4', ‘'M23°'); 
INSERT INTO building VALUES ('B4', '4', 'M34°'); 











INSERT INTO inspector VALUES (‘I1l', ‘Jane'), 
INSERT INTO inspector VALUES ('I122', ‘Niko'), 
INSERT INTO inspector VALUES ('133', ‘Mick'),; 












INSERT INTO inspecting VALUES ('I11','B1', '1S/May/2012','14/May/2013')，; 
INSERT INTO inspecting VALUES ('I11'，'B2'，'17/Reb/2013'，'17/May/2013 ') ; 
INSERT INTO inspecting VALUES ('!I22'，'B2'，'17/RFeb/20131，'17/May/2013 1) ; 
INSERT INTO inspecting VALUES ('122', 'B3', '11l/Jan/2013','11i/Jan/2014'),; 
INSERT INTO inspecting VALUES ('133','B3','12/Jan/2013','12/Jan/2014'); 
INSERT INTO inspecting VALUES 1'I33', 'B4','11/Jan/2013','1il/Jan/2014'); 





















INSERT INTO corpclient VALUES ('C1i1li', '‘'BlingNotes', 'Music', ‘Chicago', null),; 
INSERT INTO corpclient VALUES ('C222', 'SkyJet', 'Airline', ‘Oak Park’', ‘C111');，; 
INSERT INTO corpclient VALUES ('C777', ‘'WindyCT', ‘Music', 'Chicago', 'C222'),， 
INSERT INTO corpclient VALUES ('C888', ‘SouthAlps', ‘Sports', 'Rosemont', 'C777'),， 



















VALUES “二 忆 了 





INSERT 
INSERT INTO apartment VALUES ('B1', '41°', ; ully; 
INSERT INTO apartment VALUES ('B2', '11°', "C2 hs 


apartment 1 
1 
2, 
INSERT INTO apartment VALUES ('B2', '31', 2, null),; 
2 
2 








INSERT INTO apartment VALUES {'B3', ‘11°', PM 
INSERT INTO apartment VALUES ('B4', '11.', C7ERY 
















INSERT staffmember VALUES ('5432', 'Brian'),; 
INSERT INTO staffmember VALUES ('9876', ‘Boris').; 
INSERT INTO staffmember VALUES ('7652', '‘'Caroline').， 




















INSERT INTO cleaning VALUES ('B1', '21', '5432'): 
INSERT INTO cleaning VALUES ('B1', '41', '9876').; 
INSERT INTO cleaning VALUES ('B2', '1i', ‘9876'); 
INSERT INTO cleaning VALUES ('B2', '31', '5432'),，; 
INSERT INTO cleaning VALUES ('B3’', '11', 'S432°'); 
INSERT INTO cleaning VALUES ('B4', '11', '7652°'); 













图 5-39d HAFH 房地产 公司 物业 管理 部 门 数据 库 : INSERT INTO 插入 记录 


正如 本 章 之 前 所 提 到 的 那样 ， 记 录 添 加 的 顺序 是 很 重要 的 ， 因 为 ， 参照 完整 性 约束 要 求 
被 参照 关系 的 主 码 值 的 录 人 要 先 于 外 码 值 的 录 人 。 例 如 ， 在 关系 CORPCLIENT 中 ， 记 录 录 
人 时 ， 要 求 被 参照 客户 数据 的 录 人 要 先 于 参照 客户 数据 的 录 人 。 

注意 ， 我 们 最 开始 没有 为 关系 MANAGER 的 MResBuildingID 插入 数据 ， 而 是 让 这 列 
的 值 暂时 空缺 (如 图 5-39a 所 示 )， 其 原因 是 实体 MANAGER 和 实体 BUILDING 之 间 存 在 两 
个 联系 。 一 个 联系 中 MANAGER 列 参 照 BUILDING ， 在 另 一 个 联系 中 BUILDING 列 参 照 
MANAGER。 在 一 个 关系 模式 中 实现 以 上 两 个 联系 会 导致 循环 外 码 依赖 (circular foreign key 


dependency ) - 
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表 中 不 能 出 现 对 尚未 创建 的 表 的 约束 。 因 此 ， 我们 选择 开始 只 在 关系 BUIILDING 中 建 
立 参 照 完整 性 约束 ， 在 该 约束 中 关系 BUILDING 的 外 码 列 参照 MANAGER 关系 的 主 码 列 。 
其 他 参照 完整 性 约束 (关系 MANAGER 的 外 码 列 参照 BUILDING 的 主 码 列 ) 将 会 在 后 面部 
分 进行 补充 说 明 。 


5.29 ”约束 管理 


当 原 始 数 据 都 已 经 录入 以 后 ， 我 们 就 可 以 添加 其 缺失 的 参照 完整 性 约束 ， 即 关系 
MANAGER 的 外 码 ReBuildingID 参照 了 关系 BUILDING 的 主 码 ， 其 过 程 可 用 如 下 语句 实现 。 
Alter 语句 5: ALTER TABLE manager 
ADD CONSTRAINT fkresidesin 
FOREIGN KEY Iimresbuildingid}) REFERENCES building 
(buildingidl ， 
只 要 参照 完整 性 FKResidesIn 添加 到 位 ， 我 们 就 可 以 通过 执行 如 下 UPDATE 语句 为 关系 
MANAGER 的 ReBuildingID 列 赋值 。 


Update 语句 4. UPDATE manager 


SET mresbuildingid = 'B1' 
WHERE managerid = 'MiI2'; 
Update 语句 S. UPDATE manager 
SET mresbuildingid = 'B82' 
WHERE managqerid = 'M23',， 160 
‘ 
Update 语句 OG: UPDATE manager 161 
SET mresbuildingid = 'B4' 
WHERE managerid = 'M34 ' ; 
执行 了 以 上 UPDATE 语句 之 后 ， 关 系 MANAGER 中 记录 的 MResBuildingID 就 已 被 赋值 。 
所 有 图 5-39c 所 示 的 原始 数据 就 已 都 被 录 人 到 HAFH 数据 库 中 。 
现在 我 们 就 可 以 实现 MResBuildingID 列 的 强制 性 约束 要 求 ， 相 关 的 ALTER TABLE 语 
句 如 下 。 
Alter 语句 6: ALTER TABLE manager 
MODIFY (mresbuildingid NOT NULL ) ; 
以 后 所 有 录入 到 关系 MANAGER 的 记录 都 必须 给 MReaBuildingID 列 赋值 ， 同 时 会 匹配 关 
系 BUILDING 中 BuildingID 的 值 。 


因为 FKResidesIn 有 名 称 ， 因 此 在 需要 时 就 可 以 选择 移 除 表 MANAGER 和 表 
BUILDING。 首 先 考察 如 下 移 除 表 的 语句 。 
DROP TABLE sequence HAFH database 一 First seven tables: 


DROP TABLE cleaning,; 
DROP TABLE staffmember; 
DROP TABLE apartment.; 
DROP TABLE corpclient: 
DROP TABLE inspecting, 
DROP TABLE inspector; 
DROP TABLE managerphone,; 


该 语句 序列 将 会 移 除 所 有 关系 而 不 只 是 关系 BUILDING 和 MANAGER， 这 是 因为 关系 
BUILDING 和 MANAGER 相互 参照 。 下 面 的 语句 序列 
DROP TABLE sequence HAFH database 一 Last two tables (a): 


DROP TABLE building,; 
DROP TABLE managqer ; 


[一 


158 沉 一 大 分 “ 扣 作 型 数据 亩 


以 及 语句 序列 
DROP TABLE sequence HAFH database 一 Last two tables (b): 


DROP TABLE manager.:; 
DROP TABLE building:; 


都 不 能 实现 以 上 要 求 。 然 而 由 于 FKResidesIn 约束 有 和 名称， 那么 就 可 以 用 如 下 语句 删除 该 
约束 。 


Alter 语句 FF ALTER TABLE manager 
DROP CONSTRAINT fkresidesin; 


反之 ， 这 就 允许 我 们 执行 语句 序列 DROP TABLE sequence HAFH database 一 Last two 


tables(a)。 

移 除 表 中 参照 完整 性 约束 的 命令 可 以 完全 规避 之 前 执行 DROP TABLE 语句 的 顺序 问题 。 
例如 ， 如 果 我 们 要 移 除 HAFH 数据 库 中 所 有 的 参照 约束 (假设 它们 都 有 和 名称)， 那 么 就 可 以 
以 任意 的 顺序 执行 DROP TABLE 语句 。 


5.30 SELECT (附加 实例 ) 

接 下 来 介绍 附加 的 SQL 查询 实例 ， 演 示 SQL 附加 的 命令 和 功能 。 这 些 查 询 实例 将 从 
HAFH 数据 库 中 查询 记录 。 
5.31 关系 与 目 身 的 连接 ( 自 连接 ) 


右 一 个 关系 有 一 个 外 码 参 照 其 本 身 的 主 码 ， 则 在 查询 中 这 个 关系 就 可 以 和 它 自己 建立 连 
接 。 这 样 的 连接 也 称 为 自 连 接 (self-JOIN)。 请 看 Query39。 
Query39 的 文本 描述 : 检索 参照 和 被 参照 的 公司 客户 的 名 称 。 


Query39: SELECT c.ccname AS client, r.ccname AS recommender 
FROM corpeclient tt, oOrpclient Tz 
WHERE r.ccid = c.ccidreferredby: 











Skyjet BlingNotes 
WindyCT Skyjet 
SouthAlps | WindyCT 


图 5-39 Query39 的 结果 


Query39 的 结果 如 图 5-39 所 示 。 
在 这 个 查询 中 考察 了 关系 CORPCLIENT 两 次 ， 使 用 了 两 个 
不 同 的 别名 c 和 r。 别 名 c 代表 关系 CORPCLIENT 的 客户 角色 ， 
而 别名 rz 代表 关系 CORPCLIENT 的 推荐 人 角色 。 它 们 之 间 建 立 连 
接 后 使 得 客户 的 CCIDreferredby 的 值 匹配 到 推荐 人 的 CCIDvalue。 
注意 ， 由 于 在 这 种 情况 下 我 们 两 次 参照 了 同一 关系 ， 因 而 必须 使 用 别名 。 如 果 没 有 使 用 
别名 ， 查 询 语 句 就 会 产生 歧义 且 不 会 执行 (将 会 返回 错误 报告 )。 






5.32 OUTER JOIN 


当 一 个 关系 外 码 的 值 和 另 一 个 关系 主 码 的 值 相 匹配 时 ，JOIN 运算 能 合并 这 两 个 关系 的 
记录 。Query40 展示 了 关系 APARTMENT 和 关系 CORPCLIENT 之 间 JOIN 运算 的 例子 。 


Query40: SELECT a.buildingid, a.aptno, c.ccname 
FROM apartment a, corpclient c 
WHERE a CC = cuteid: 


Query40 的 结果 如 图 5-40 所 示 。 
注意 ，BuildingB1 中 的 Apartment41 和 BuildingB2 中 的 Apartment31 没有 出 现在 查询 
绩 采 里 ， 这 是 因为 它们 的 CCID 不 能 匹配 任何 公司 客户 的 CCID。 类 似 地 ， 公 司 客户 South 
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Alps 岂 没 有 出 现在 查询 结果 里 ,原因 也 是 其 CCID 不 能 和 任 一 apartment 相 匹配 。 










] BuildinglD | AptNo CCName 





] BlingNotes 
| SkyJet 
| WindyCT 


















图 5-40 ”Query40 的 结果 


OUTER JOIN (外 连接 ) 语句 是 JOIN (连接 ) 的 变 体操 作 ， 它 将 保留 那些 在 连接 中 不 
能 匹配 的 记录 。 有 三 种 形式 的 外 连接 : LEFT OUTER JOIN ( 左 外 连接 )，RIGHT OUTER 
JOIN ( 右 外 连接 ) 和 FULL OUTER JOIN (全 外 连接 ). 

Query41 是 左 外 连接 的 一 个 例子 。 


Query41: SELECT a ,buildingld，a.aptnoe，Cc.ccname 
FROM apartment a LEFT OUTER JOIN corpclient c 
= 


Query41 的 结果 如 图 5-41 所 示 。 
对 左 外 连接 来 说 ， 所 有 出 现在 左 外 连接 运算 之 前 ( 左 “|Buidinelp | AptNe |CCName 
边 ) 关系 中 的 记录 (此 例 中 的 APARTMENT) 都 会 被 保留 
在 查询 结果 里 ， 包 括 那 些 没 能 满足 匹配 条 件 的 记录 。 知 
关系 中 的 记录 以 这 种 方式 与 其 他 关系 的 记录 建立 了 连接 ， 
那些 不 能 匹配 的 记录 将 会 被 设 为 空 值 。 由 图 5-41 可 以 看 
出 ， 在 使 用 了 左 外 连接 运算 后 ， 尽 管 它 们 都 没有 相应 的 
CCName 值 ，BuildingB1l 中 的 Apartment41 仍 出 现在 查询 图 5-41 Query41 的 结果 
结 来 里 ，BuildingB1 中 Apartment31 也 出 现在 查询 结果 里 ， 其 CCName 值 均 为 NULL. 
Query42 是 右 外 连接 的 一 个 例子 。 





Query42: SELECT a.buildingid, a.aptno, c.ccname 
FROM apartment a RIGHT OUTER JOIN corpclient cc 
ON a eid, = CCeid; 


Query42 的 结果 如 图 5-42 所 示 。 

对 于 右 外 连接 来 说 ， 所 有 出 现在 右 外 连接 运算 之 后 
(右边 ) 关系 中 的 记录 (此 例 中 的 CORPCLIENT) 都 会 . 
保留 在 查询 结果 里 ， 包 括 那 些 没 能 满足 匹配 左边 关系 条 
件 的 记录 。 由 图 5-42 可 以 看 出 ， 在 使 用 了 右 外 连接 运算 
后 ， 尽 管 South Alps 这 条 记录 没有 相应 的 BuildingID 和 
AptNo 值 ， 客 户 名 South Alps 仍 出 现在 查询 结果 里 ， 其 图 5-42 Query42 的 结果 
BuildingID 和 AptNo 值 为 NULL。 

Query43 是 全 外 连接 的 一 个 例子 。 


Br | anoNoes | 
Br see | 
Ba | |wngcr | 
上 II 
i 






Query43: SELECT a.buildingid, a.aptno, ¢c.ccname 
FROM apartment a FULL OQUTER JOIN corpclient c 
ON a CCYd .CEL 


昌 为 与 外 连接 (OUTER JOIN) 区 分 ， 规 定常 规 连 接 (JOIN) 为 内 连接 (INNER JOIN)， 
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Query43 的 结果 如 图 5-43 所 示 。 
对 于 全 外 连接 来 说 ?> ， 即 使 两 个 关系 没有 相 匹 配 的 记 
录 ， 其 所 有 记录 也 都 会 保留 在 查询 结果 里 。 


5.33 ”无 主 码 / 外 码 组 合 的 连接 


两 张 表 之 间 建 立 连接 也 可 以 不 通过 一 张 表 外 人 码 连 接 男 
一 张 表 主 码 的 形式 。 两 张 表 之 间 的 连接 条 件 是 它们 相对 应 
的 某 列 具 有 相同 的 值 。Query44 给 出 的 例子 连接 了 既 不 是 [| lsouhAps | 
主 码 也 不 是 外 码 的 两 个 列 。 图 5-43 ”Query43 的 结果 
Query44 的 文本 描述 : 对 于 每 一 个 manager， 如 果 有 职员 和 他 的 first name 相同 ， 则 检 
索 manager 的 ID、first name、l]ast name 以 及 相应 职员 的 ID， 









Query44: SELECT Tm.managerid, m.mfname, m.mlname, 5.smemberid 
FROM manager m, staffmember S 
WHERE m.mfname = 8.smembhername, 


Query44 的 结果 如 图 5-44 所 示 。 


M12 Boris 9876 


图 5-44 ”Query44 的 结果 


5.34 |S NULL 
在 某 一 查询 中 ， 包 含 某 一 列 的 值 与 空 值 相 比较 时 ， 就 需要 使 用 1S NULL。 请 看 Query45。 
Query45 的 文本 描述 : 检索 那些 没有 奖金 的 manager 的 记录 。 
Query45: sELEcT 


FROM manager 
WHERE mhonus IS NULL 


Query45 的 结果 如 图 5-45 所 示 


图 5-45 ”Query45 的 结果 


| 


5.35 EXISTS 


在 查询 的 内 查询 ( 散 套 查询 ) 中 ， 若 使 用 了 外 查询 SELECT 部 分 列 出 的 某 关系 的 某 列 或 
某 些 列 ， 则 将 这 个 内 查询 称 为 相关 子 查询 (correlated subquery)。 在 这 种 情况 下 ，EXISTS 操 
作 就 可 以 用 来 测试 内 查询 的 结果 是 否 为 空 。 请 看 Query46。 

Query46 的 文本 描述 : 检索 所 有 manager 居住 的 building 记录 。 


昌 请 查看 本 章 5.40.6 节 语 法 差异 说 明 ， 了 解 不 同 RDBMS 软件 中 定义 全 外 连接 (FULL OUTER JOIN ) 的 其 他 
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Query46: SELECT 


FROM building Lb 
WHERE EXISTS 
SELECT 
FRDM marnia ' 
WHERE Bb. ldinaia m.mresbuildinsid 


Query46 的 结果 如 图 5-46 所 示 ， 
在 Query46 中 ， 内 查询 使 用 了 外 查询 中 使 用 过 [6 ID Glonaderll 
的 关系 BUILDING 的 BuildingID 列 。 因此 ， 内 查询 
是 外 查询 相关 的 。 对 于 每 一 个 在 关系 BUILDING 中 
的 建筑 X， 只 要 其 满足 在 关系 MANAGER 里 有 一 条 
manager 住 在 X 中 的 记录 ，EXISTS 操作 将 会 返回 一 图 5-46 ”Query46 的 结果 
个 布尔 值 TRUE; 着 没 有 记录 ， 就 返回 布尔 值 FALSE. 
以 上 查询 是 一 个 相关 艇 套 查 询 ， 因 为 内 查询 参照 了 BuildingID 列 ， 而 它 又 是 外 查询 中 
BUILDING 表 的 一 列 ， 





5.36 NOT 


NOT 操作 配合 条 件 比 较 使 用 ， 返 回 布尔 值 TRUE 或 FALSE。 请 看 Query47。 
Query47 的 文本 描述 : 检索 所 有 没有 manager 居住 的 building 记录 


Query47 : SELECT 
FROM building b 
WHERE NOT EXISTS 
(SELEET * 


FROM manager m 
WHERE b.puildingid = m.mresbuildingid}).: 


Query47 结果 如 图 5-47 有 所 示 ， 


BuildinglD | BNOofFloors | BManagerlD 
4 M23 


B33 1 wa | 
图 5-47 ”Query47 的 结果 


SQL 中 的 关键 词 NOT 也 可 以 用 于 其 他 类 型 中 使 用 布尔 逻辑 的 查询 。 例 如 ，NOT 可 以 和 
IN 组 合成 NOT IN 条 件 ， 或 者 结合 IS NULL 组 成 IS NOT NULL 条 件 。 


5.37 ”从 查询 中 插入 关系 


查询 中 检索 出 的 数据 可 以 填 人 到 其 他 关系 中 。 考 察 如 下 示例 场景 : 如 果 我 们 想 要 创建 一 
个 关系 CLEANING 的 非 规 范 化 拷贝 ， 要 求 除了 包含 SMemberID 列 还 要 包含 SMemberName 
列 。 首 先 ， 我们 需要 创建 一 个 空 的 非 规范 化 关系 CLEANINGDENORMALIZED， 该 过 程 可 
以 使 用 如 下 CREATE TABLE 语句 : 

Create Table 语句 1: 


CREATE TABLE cleaningdenormalized 


bd, 


build1ingid CHAR (3) NOT NULL, 
aptno CHAR SS) NOT NULL, 
smemberid CHAR 14 NOT NULL ， 
smembername VARCHAR'|1S NOT NULL, 


PRIMARY KEY Ibiuiildingid, aptno, smemberid))]),; 
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这 个 新 建立 的 关系 可 用 如 下 语句 来 填充 赋值 : 
Insert 语 铅 2: 


INSEPT INTO cleaningdenormalized 


SEBECT c.buildingid, c.aptno, s.smemberid, 5.smembername 
FROM cleaning €, stafftmember S 
WHERE .smemberid = s.smemberid, 


通过 结合 INSERT INTO 语 句 和 SELECT 查询 . 就 实现 了 目 动 将 数据 录 人 到 关系 
CLEANINGDENORMALIZED 中 。 


5.38 其 他 SQL 功能 


本 章 所 涵盖 的 SQL 功能 为 理解 典型 的 公司 所 使 用 的 SQL 提供 了 基础 。 除 了 本 章 所 提 到 | 
的 功能 之 外 ， 还 存在 其 他 SQL 功能 。 一 旦 熟练 掌握 本 章 所 介绍 的 SQL 功能 ， 以 后 学 习 和 使 
用 其 他 SQL 就 简单 了 ， 

本 章 所 给 出 的 问题 是 最 基本 的 SQL 问题 ， 下 面 两 节 将 会 介绍 一 些 附 加 的 SQL 问题 。 


5.39 问题 说 明 : SQL 中 观测 值 使 用 不 当 

初学 者 中 最 常见 的 一 个 SQL 错误 就 是 创建 过 于 简单 的 查询 ， 并 通过 不 当地 使 用 观测 值 
而 得 到 正确 的 查询 结果 。 考 察 如 下 从 ZAGI Company Sales Department Database 中 检索 数据 
的 要 求 。 

Request A : 对 于 在 所 有 的 销售 事务 中 售 出 超过 三 件 的 产品 ， 检 索 其 product id、 


product name 和 product price - 


考察 如 下 两 个 SQL 查询 : 
SQL Query A 
SEEECT croductid, produectname, productprice 
FROM product 
WHERE productid iN 

(SELECT produet iad 

FROM soldv1ia 

GROUP BY productid 

HAVING SUM{noofitems) > 3) 
SQL Query B 
SELECT productid, productiname, productprice 
FROM Broduct 
WHERE Productad, LIN (€*3X%3", "dX4*) 


因为 ProductID 的 值 为 3x3 和 4x4 的 产品 销量 超过 三 件 ， 所 以 这 两 个 查询 有 相同 的 查询 
结果 。 








ProductiD ProductName | ProductPrice 


然而 Query A 才 是 满足 Request A 的 正确 查询 ，Query B 则 不 是 。 

Query A 使 用 SQL 命令 ,确定 哪些 产品 在 销售 事务 中 售 出 超过 三 件 。 即 使 数据 库 中 表 的 
数据 更 新 时 ， 它 也 可 以 产生 正确 的 查询 结果 。 

为 一 方面 ，Query B 是 基于 观测 值 的 。 在 目前 看 来 ， ProductID 的 值 为 3x3 和 4x4 的 
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产品 销量 超过 三 件 . 所 以 会 产生 正确 的 结果 。 当 这 种 情况 不 再 适用 时 ， 数 据 库 有 更 新 (如 水 
了 新 的 销售 量 超过 三 件 的 产品 )， 则 Query B 就 会 产生 不 正确 的 结果 。 
正如 此 例 所 演示 的 那样 , 在 SQL 查询 中 ， 当 SQL 命令 可 以 用 来 代替 从 数据 库 中 检索 所 
需 的 值 的 条 件 时 ,不 要 在 查询 条 件 里 直接 使 用 属性 列 的 值 。 注 意 ， 对 于 Request B，Query B 
就 可 以 产生 正确 的 结果 。 
Request B : 对 满足 条 件 ProductID 的 值 为 3x3 和 4X4 的 产品 ， 检 索 其 product id、 


product name 和 product price. 


5.40 ”问题 说 明 : SQL 标准 和 SQL 语法 差异 


20 世纪 70 年 代 IBM 开发 了 SQL， 它 成 为 了 从 关系 型 数据 库 中 查询 数据 的 标准 语言 。 
到 20 世纪 80 年 代 ， 它 被 美国 国家 标准 协会 (ANSI) 和 国际 标准 化 组 织 (ISO) 所 采用 。 这 个 
标准 分 为 几 部 分 ， 除 了 本 章 所 讨论 的 语言 逻辑 框架 和 核心 要 系 之 外 ， 还 存在 很 多 扩展 ， 用 以 
进一步 加 强 SQL 的 功能 。 这 些 扩展 包括 如 何 将 SQL 与 其 他 程序 语言 、 外 部 数据 、 多 媒体 等 
联合 使 用 ， 以 及 其 他 日 益 增 加 的 功能 。 

这 个 标准 被 初次 采用 之 后 ，ANSI 和 ISO 又 颁布 了 多 个 版 本 的 SQL 标准 。 与 之 前 的 版 本 
一 样 ， 最 新 的 版 本 也 以 年 份 命名 ， 即 SQL:2011 。 通 常情 况 下 ，RDBMS 的 供应 商 们 都 会 努 
力 遵 守 SQL 标准 。 但 是 ,供应 商 实现 SQL 时 存在 差异 ， 包括 标准 里 规定 的 SQL 命令 和 功 
能 的 实现 数量 以 及 标准 里 未 规定 的 扩展 和 修正 ， 都 可 能 存在 差异 。 这 就 导致 SQL 脚本 (SQL 
语句 集合 ) 很 难 从 一 个 DBMS 移植 到 其 他 DBMS. 

现在 流行 的 不 同 RDBMS 包 ” 实现 SQL 时 会 存在 细微 的 SQL 语法 差异 。 为 说 明 这 个 问 
题 ， 本 书 将 就 多 个 主流 RDBMS 包 选 择 性 地 阐述 和 讨论 一 些 SQL 语法 差异 。 这 些 讨论 是 从 
后 面 列 出 的 SQL 语法 差异 中 截取 的 一 部 分 。 正 如 后 文 所 示 ， 这 些 差异 是 很 细微 的 ，SQL 的 
使 用 者 通过 一 点 额外 的 学 习 就 可 以 很 容易 地 从 一 个 RDBMS 切换 到 男 一 个 RDBMS。 


5.40.1 SQL 语法 差异 1: DATE 和 TIME 数据 类 型 


在 不 同 的 RDBMS 中 ， 一 些 SQL 数据 类 型 在 语法 上 略 有 差异 。 例 如 ， 在 很 多 RDBMS 
包 (如 MySQL 、Microsoft SQL Server、PostgreSQL 、Teradata 、IBM DB2 ) 中 ， 除 了 DATE 
型 数据 可 记录 日 期 之 外 ，TIME 型 数据 也 可 记录 一 天 中 的 时 刻 。 

然而 ，Oracle 没有 特定 的 数据 类 型 TIME ， 其 数据 类 型 DATE 同时 包含 日 期 和 时 刻 。 这 与 
MySQL 和 Microsoft SQL Server 中 结合 日 期 和 时 刻 类 型 实现 的 DATETIME 数据 类 型 相同 。 

除了 DATE 和 TIME 这 两 种 数据 类 型 ， 现 在 的 RDBMS 包 中 ， 还 存在 其 他 与 日 期 和 时 间 
相关 的 数据 类 型 ， 比 如 TIMESTAMP 数据 类 型 可 用 于 记录 高 精度 ( 微 秒 甚至 更 高 精度 ) 的 日 期 
和 时 间 的 值 ， 并 同时 兼 具 时 区 声明 的 功能 ; 而 INTERVAL 数据 类 型 则 可 用 于 记录 时 间 间 隔 。 


5.40.2 SQL 语法 差异 2: FOREIGN KEY 


在 很 多 的 RDBMS 包 中 ， 指 定 外 码 时 可 以 不 必 显 式 指 出 此 外 码 所 参照 的 关系 的 主 码 名 
称 。 例 如 ， 以 下 用 于 声明 外 码 的 CREATE TABLE 语句 在 多 数 的 RDBMS 包 (如 Oracle、 


加 本 书 的 完整 资源 (可 从 dbtextbook.com 处 得 到 ) 包含 了 本 章 提 及 的 6 种 主流 RDBMS 包 (Oracle、MySQL、 
Microsoft SQL Server、PostgreSQL 、Teradata 和 IBM DB2 ) 所 有 SQL 语句 代码 的 完整 版 本 。 
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PostgreSQL 、Teradata 、IBM DB2 、Microsoft SQL Server) 中 是 有 效 的 : 
FOREIGN KEY (vendorid}) REFERENCES vendor, 
但 是 ， 在 有 些 RDBMS 包 (如 MySQL) 中 必须 显 式 指出 此 外 码 所 参照 关系 的 主 码 名 称 ， 如 
FOREIGN KEY (vendorid) REFERENCES venaor lvendorid), 
这 种 声明 外 码 的 方式 在 不 需要 显 式 指出 主 码 名 称 的 RDBMS 包 (如 Oracle 和 IBM DB2 ) 中 
同样 适用 。 


5.40.3 SQL 语法 差异 3: 别名 关键 词 AS 的 使 用 


在 多 数 RDBMS 包 中 ， 表 和 列 都 可 以 使 用 别名 关键 词 AS。 例 如 ， 以 下 查询 语句 可 用 于 
PostgreSQL 、Teradata、MySQL、Microsoft SQL Server: 


SELECT P.Pproductid AS pid, p.productname AS pname, 
vVv.vendorname AS vname, p.productprice RS pprice 
FROM product AS p, vendor AS v 
WHERE PpP.vendorid = v.vendorid; 
. ™ 2 YY NA -一 一 
人 但是， 这些 语句 不 能 在 Oracle 中 适用 ， 因 为 Oracle 不 允许 用 AS 关键 词 指 定 关系 的 别名 。 
一 i gE 
在 Oracle 中 同样 的 声明 如 下 : 
SELECT p.Productid AS pid, p.productname RS pname， 
v.vendorname AS vname, p.productprice AS pprice 
FROM product p, vendor vy 
WHERE p.vendorid = v.vendorid; 
或 者 
SELECT P.Productid pid, p.productname pname, 
Vv.vendorname vname, Pp.productprice pprice 
FROM product p, vendor vy 
WHERE p-vendorid = v.vendorid; 


注意 ， 以 上 三 种 声明 语句 同时 适用 于 PostgreSQL、Teradata、MySQL、Microsoft SQL 


Server, 


5.40.4 SQL 语法 差异 4: ALTER TABLE 


在 一 些 RDBMS 包 (如 MySQL、Teradata、MySQL) 中 ，ALTER TABLE 语句 里 如 需 使 
用 关键 词 ADD， 要 求 使 用 括号 ， 如 下 述 例子 所 示 : 


ALTER TABLE vendor ADD 
{ vendorphonenumber CHAR (1 ); 


然而 ， 在 另 一 些 RDBMS 包 (如 Microsoft SQL Server、PostgreSQL 、IBM DB2 ) 中 ， 
ALTER TABLE 语句 里 如 需 使 用 关键 词 ADD ， 则 不 要 求 使 用 括号 ， 以 上 语句 改写 如 下 : 


ALTER TABLE vendor ADD 
vendorphonenumber CHAR(11) ， 


除了 这 些 差异 之 外 ,在 大 多 数 RDBMS 包 中 ，ALTER TABLE 语句 里 如 需 使 用 关键 词 
DROP， 不 要 求 使 用 括号 。 但 是 Oracle 除外 ， 它 要 求 在 使 用 关键 词 DROP 时 使 用 括号 。 下 面 
是 在 不 同 RDBMS 包 中 同一 语句 的 三 个 不 同 声明 。 
第 一 个 在 Oracle 中 不 被 允许 ， 但 是 在 PostgreSQL .Teradata MySQL .IJBM DB2 中 适用 。 
ALTER TABLE vendor DROP vendorphonenumber; 


第 二 个 在 Oracle 中 有 要 求 ， 但 是 在 其 他 前 述 提 到 的 包 中 不 被 允许 。 


ALTER TABLE vendor DROP (vendorplhonenumber):; 
第 三 个 是 另 一 个 Microsoft SQL Server 要 求 的 需 指 定 关键 词 COLUMN 的 差异 。 

ALTER TABLE vendor DROP COLUMN vendorphonenumber ; 
当 在 IBM DB2 中 声明 一 条 ALTER TABLE 语句 删除 一 张 表 中 的 结构 (如 一 列 或 一 个 约束 ) 
时 ， 需 要 添加 一 条 额外 的 命令 来 确保 查询 继续 。 这 条 命令 应 被 加 在 ALTER TABLE 命令 之 
后 ， 如 下 所 示 : 


ALTER TABLE vendor DROP vendorphonenumber., 
REORG TABLE vendor; 


还 有 一 些 关 于 ALTER TABLE 命令 用 法 的 语法 差异 。 比 如 ， 可 以 在 Oracle 中 写 出 下 述 的 语句 : 


ALTER TABLE manager 
MODIFY (mresbuildingid NOT NULL); 


但 是 .在 其 他 RDBMS 包 (如 PostgreSQL、IBM DB2 ) 中 ,语法 差异 如 下 : 


ALTER TABLE manager 
ALTER mresbuildingid SET NOT NULL,; 


在 其 他 RDBMS 包 (如 MySQL、Microsoft SQL Server) 中 ， 不仅 存 在 语法 差异 ， 每 一 列 的 
所 有 属性 (如 数据 类 型 、NULL/NOT NOLL 等 ) 都 要 包含 在 ALTER 语句 里 。 因 此 ， 以 上 语 
句 应 改写 如 下 : 

MySQL : 


ALTER TABLE manager 
MODIFY mresbuildingid CHAR[3) NOT NULL,'; 


Microsoft SQL Server: 


ALTER TABLE manager 
ALTER COLUMN mresbulildingid CHAR({3) NOT NULL.; 


5.40.5 SQL 语法 差异 5: 集合 运算 


尽管 大 多 数 RDBMS 包 在 实现 并 集运 算 时 都 遵循 统一 风格 ,但 是 ， 在 实现 交 运 算 和 差 运 
算 时 仍然 存在 差异 。 

比如 ， 在 Oracle、PostgreSQL 、Teradata 、IBM DB2 、Microsoft SQL Server 中 ， 以 下 查 
询 执行 的 是 交 运 算 : 


SELECT 

FROM Products_more_rhan 3 sold 
INTERSECT 

SELECT 到 

FROM products in multiple trnsc, 


MySQL 中 没有 明确 的 交 运 算 ， 因此 ， 要 实现 与 此 相同 的 查询 ,使 用 如 下 语句 : 


SELECT DISTINCT 

FROM products more than 3 sold 

WHERE (‘productid, productname, productprice) IN 
(SELECT * FROM products in multiple trnsc); 


考察 如 下 查询 ， 这 是 一 个 在 Oracle 中 执行 差 运 算 的 例子 : 


SELECT 中 

FROM products more than 3 sold 
MINUS 

SELECT 

FROM products in multiple trnsc; 


同样 的 查询 在 PostgreSQL 和 Microsoft SQL Server 中 可 以 表示 如 下 : 


> 
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SELECT 


FROM products more than 3_sold 
EXCEPT 

SELECT 

FROM products in multiple trnsc, 


以 上 两 种 情况 使 用 了 不 同 的 操作 来 实现 同一 个 查询 ， 这 在 Teradata 及 IBM DB2 中 都 是 允许 的 。 
而 MySQL 则 不 会 执行 一 个 完全 不 同 的 操作 ， 例 如 ， 要 实现 与 上 例 相 同 的 查询 ，MySQL 


将 只 能 使 用 如 下 语句 : 
SELECT 
FROM products more than 3 sold 
WHERE (productid, productname, productprice) NOT IN 


(SELECT * FROM products in multiple trnsc),; 


5.40.6 SQL 语法 差异 6: FULL OUTER JOIN 


在 不 同 的 RDBMS 中 实现 全 外 连接 时 存在 差异 。 比 如 ， 在 Oracle、PostgreSQL、Teradata、 
IBM DB2、Microsoft SQL Server 中 ， 以 下 查询 执行 的 是 全 外 连接 : 


SELECT a.buildingid, a.aptno, c.ccname 
FROM apartment a FULL OUTER JOIN corpclient Cc 
ON 有 EECELG = .CELA 


一 些 RDBMS 包 没 有 明确 的 FULL OUTER JOIN 操作 。 相 应 地 ， 用 户 需 要 通过 联合 左 外 连接 
和 右 外 连接 来 实现 全 外 连接 。 同 样 的 查询 在 MySQL 中 可 以 表示 如 下 : 


SELECT a.buildingid, a.aptno, c.ccname 

FROM apartment a LEFT OUTER JOIN corpclient c 
ON a.ccid = € .ceid; 

UNION 

SELECT a.buildingid, a.aptno, c.ccname 

FROM apartment a RIGHT OUTER JOIN corpclient c 
ON dveeLd = Cede; 


5.40.7 SQL 语法 差异 7: 约束 管理 


在 本 章 前 几 节 的 叙述 中 ,介绍 了 如 何 通 过 添加 和 删除 完整 性 约束 实现 完整 性 的 启用 和 停 
用 。 另 外 一 种 在 已 创建 数据 库 的 生命 周期 里 处 理 启 用 和 停 用 完整 性 问题 的 方式 是 ， 使 用 由 某 
些 RDBMS 包 (如 Oracle、Microsoft SQL Server) 提供 的 ENABLE 和 DISABLE 约束 选项 。 

例如 ， 假 设 图 5-39b 所 示 的 CREATE TABLE 语句 的 前 三 条 已 经 执行 ， 且 关系 MANAGER 
已 被 添加 到 其 中 的 FKResidesIn 约束 人 和 修改。 这些 约束 可 以 在 HAFH 数据 库 生 命 周 期 内 的 任意 
时 刻 被 停 用 ， 在 Oracle 和 Microsoft SQL Server 中 可 以 分 别 通过 使 用 如 下 语句 来 实现 : 


ALTER TABLE manager 
DISABLE CONSTRAINT fkresidesin,; 


ALTER TABLE manager 
NOCHECK CONSTRAINT fkresidesin,; 


如 果 需 要 ， 在 Oracle 和 Microsoft SQL Server 中 可 以 分 别 通 过 使 用 如 下 语句 重新 启用 约束 : 


ALTER TABLE manager 
ENABLE CONSTRAINT fkresidesin,; 


ALTER TABLE manager 
CHECK CONSTRAINT fkresidesin; 


与 此 例 中 的 命令 用 于 移 除 表 中 参照 完整 性 约束 的 情况 类 似 ， 移 除 参照 完整 性 的 命令 也 
可 以 用 于 规避 之 前 删除 表 的 DROP TABLE 语句 的 执行 顺序 问题 。 比 如 ， 我 们 删除 了 所 有 
HAFH 数据 库 中 的 参照 约束 (假设 它们 都 被 命名 )， 就 能 以 任意 顺序 执行 DROP TABLE 命令 。 
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5.40.8 SQL 语法 差异 8: GROUP BY 


在 标准 的 SQL 中 ,， 当 SELECT 命令 使 用 GROUP BY 子 句 时 ， 则 出 现在 关键 词 SELECT 
We 于 在 聚集 函数 处 所 讨论 的 ) 之 后 列 的 名 称 必须 同时 出 现在 关键 词 GROUP BY 之 后 。 例 
， 在 大 多 数 RDBMS 包 (包括 Oracle、PostgreSQL 、Teradata 、IBM DB2 、Microsoft SQL 
有 中 、 下 述 对 ZAGI Retail Company Database 的 查询 将 是 无 效 的 ， 且 会 返回 一 个 错误 


了 全- 

报告 : 
SELECT vendorid, productname, COUNT(*) 
FROM product 
GROUP BY vendorid; ERROR MESSAGE RETURNED 


此 查询 之 所 以 无 效 ， 是 因为 ProductName 没有 在 关键 词 GROUP BY 之 后 列 出 ， 却 在 关键 词 
SELECT 之 后 列 出 。 这 违反 了 出 现在 关键 词 SELECT 之 后 列 的 名 称 必须 同时 出 现在 关键 词 
GROUP BY 之 后 这 一 规则 . 

然而 ，MySQL 人 允许 执行 这 类 查询 ， 且 会 返回 如 下 结果 。 但 它 在 本 质 上 却 是 错误 /不 完 
全 的 结果 : 


图 
vy) 
= 






VendoriD 







| ProductName | COUNTI(") 





[MK Easy Boot 
此 查询 正确 地 列 出 了 VendorlD 为 MK 的 有 4 件 产品 以 及 VendorID 为 PG 的 有 2 件 产品 。 但 
是 它 允 许 列 遇 ProductName (标准 的 SQL 不 允许 )， 并 且 只 列 出 每 组 中 一 件 产 品 的 名 称 而 忽 
略 其 他 产品 的 名 称 。 MySQL 允许 这 些 违 背 SQL 标准 的 查询 存在 ， 是 为 了 简化 某 些 合法 的 
查询 . 

作为 示例 ， 考 察 如 下 查询 : 


SELECT smemberid, smembarname, COUNT!I*) 
FROM cleaninagadenormalized 
GROUP BY smemberid, smembername.; 

产生 如 下 查询 结果 : 








SMemberlD | SMemberName | COUNT(*) 


7652 Caroline Ee 
Er rr 


此 查询 在 MySQL 中 可 以 简化 如 下 : 






SELECT smemberid, smembername, COUNT'{*) 
FROM Cleaningdenormalized 
GROUP BY smemberid, 


这 个 查询 合法 ， 因 为 SMembeName 和 SMemberID 在 每 一 组 中 都 是 唯一 的 (因为 每 一 
SMemberID 对 应 一 个 SMembeName). 

正如 上 例 所 演示 的 那样 ， 在 MySQL 中 GROUP BY 的 不 标准 实现 使 得 某 些 合法 的 查询 
得 以 缩减 ， 但 同时 会 导致 某 些 查 询 返 回 有 歧义 的 结果 。 


关键 术语 
aggregate function ( 康 集 隐 数 )，139 alias (别名 )，151 


174 | 
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ALTER TABLE (修改 表 )，153 

AVG ( 求 均值 )，139 

circular foreign key dependence (循环 外 人 码 依赖 )， 
160 

correlated subquery (相关 子 查 询 )，166 

COUNT (计数 )，139 

CREATE TABLE (创建 表 )，129 

CREATE VIEW (创建 视 医 )，154 

data control language，DCL (数据 控制 语言 )，127 

data definition language， DDL (数据 定义 语言 )， 
12:7 


data manipulation language、DML (数据 操纵 语 


证 风光， 
DELETE (删除 )、154 
DISTINCT {去 重 )。137 
DROP TABLE (删除 表 )，131 
DROP VIEW (删除 视图 )，155 
EXCEPT ( 差 )，156 
EXISTS (存在 )，166 
FULL OUTER JOIN (全 外 连接 )、164 
GROUP BY (分 组 )，140 
HAVING，144 
IN，147 
inner query ( 内 查询 )，146 
INSERT INTO，132 
INTERSECT ( 交 运 算 ) 
IS NULL, 166 


复习 题 


Q5.1 DDL SQL 语句 的 目的 是 什么 ? 

Q5.2 DML SQL 语句 的 目的 是 什么 ? 

Q5.3 CREATE TABLE 命令 的 目的 是 什么 ? 
Q5.4 DROPRABLE 命令 的 目的 是 什么 ? 
Q5.,5 _ INSERT INTO 命令 的 目的 是 什么 ? 
Q5.6 SELECT 命令 的 目的 是 什么 ” 

Q5.7 WHERE 条 件 的 目的 是 什么 ? 

Q5.8 DISTINCT 关键 词 的 目的 是 什么 ? 
Q5.9 ORDERDFD BY 子 句 的 目的 是 什么 ? 
Q5.10 LIKE 关键 词 的 目的 是 什么 ?” 

Q5.11 SQL 提供 了 哪些 聚集 纯 数 ? 

Q5.12 GROUP BY 子 句 的 目的 是 什么 ? 
Q5.13 HAVING 子 句 的 目的 是 什么 ? 
Q5.14 ”什么 是 赃 套 查询 ”? 


JOIN (连接 )，148 

LEFT OUTER JOIN ( 左 外 连接 )，164 

LIKE, 139 

MAX, 139 

MIN, 139 

MINUS, 156 

nested query ( 枢 套 查询 )，146 

NOT ，167 

ORDER BY ，138 

OUTER JOIN (外 连接 )，164 

outer query (外 查询 )，146 

query (查询 )，128 

RIGHT OUTER JOIN ( 右 外 连接 )，164 

SELECT，134 

self-JOIN ( 自 连 接 )，163 

set operator (集合 运算 )、155 

SQL data type (SQL 数据 类 型 )，128 

SQL standard (SQL 标准 )，127 

structured query language，SQL (结构 化 查询 语 
ly 

SUM ( 求 和 )，139 

transaction control language，TCL (事务 控制 语 
言 )，127 

UNION (并 运算 )，155 

UPDATE (更 新 )，15S3 

view (视图 )，154 

WHERE ，136 


Q5.15 
Q5.16 
Q5.17 
Q5.18 
Q5.19 
Q5.20 
Q5.21 
Q5.22 
Q5.23 
Q5.24 
Q5.25 
Q5.26 


练习 
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IN 关键 字 的 目的 是 什么 ? 

JOIN 条 件 的 目的 是 什么 ? 

别名 的 目的 是 什么 ? 

ALTER TABLE 命令 的 目的 是 什么 ? 
UPDATE 命令 的 目的 是 什么 ? 
DELETE 命令 的 目的 是 什么 ? 
CREATE VIEW 和 DROP VIEW 命令 的 日 的 是 什么 ? 
SQL 中 有 哪些 操作 是 可 用 的 ? 
OUTER JOIN 的 目的 是 什么 ? 

IS NULL 关键 字 的 目的 是 什么 ? 
EXSITS 关键 字 的 目的 是 什么 ? 
NOT 关键 字 的 目的 是 什么 ? 
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ES.la 
ES.1b 
BES.1¢ 
ES.1d 
ES.le 


起 项 


E 上 53.1g 


在 ZAGI 零售 公司 的 销售 部 门 数据 库 中 写 出 能 实现 下 面 任务 的 SQL 查询 : 


输出 所 有 代理 商 的 编号 VendorID 以 及 名 称 VendorName。 

会 出 所 有 顾客 的 姓名 CustomerName 以 及 邮政 编码 CustomerZip。 

输出 所 有 价格 大 于 等 于 $100 的 产品 对 应 的 产品 编号 ProductID、 产 品名 称 ProductName 、 产 
品 价格 ProductPrice。 

输出 所 有 产品 的 产品 编号 ProductID 、 产 品名 称 ProductName、 产 品 价格 ProductPrice 、 代 理 
商 名 称 VendorName， 结 果 根 据 产 品 编号 ProductID 排序 。 

输出 所 有 产品 的 产品 编号 ProductID 、 产 品名 称 ProductName 、 产 品 价格 ProductPrice 、 代 理 
商 名 称 VendorName 、 种 类 名 称 CategoryName， 结 果 根 据 产 品 编号 ProductID 排序 。 
输出 Camping 种 类 所 有 产品 的 产品 编号 ProductID、 产 品名 称 ProductrName、 产 品 价格 
ProductPrice ， 结 果 根 据 产 品 编号 ProductID 排序 。 

输出 所 有 包括 了 ProductName 为 Dura Boot 的 销售 交易 中 的 交易 编号 TID、 顾 客 姓 名 
CustomerName 、 销 售 日 期 TDate。 


E5.1h 输出 所 有 区 域 的 区 域 编号 RegionID 、 区 域名 称 RegionName 以 及 该 区 域 中 的 商店 数量 。 

E5.1i 输出 所 有 产品 种 类 的 种 类 编号 CategoryID 、 种 类 名 称 CategoryName 以 及 该 种 类 中 所 有 产品 
的 平均 价格 。 

E5.1j 输出 所 有 产品 种 类 的 种 类 编号 CategoryID 以 及 该 种 类 中 产品 的 个 数 。 

E5.1k 对 那些 售 出 的 所 有 产品 总 数 大 于 $ 的 交易 ， 输 出 其 TID 以 及 所 售 出 的 产品 总 数 。 

E5.11 输出 最 便宜 的 产品 对 应 的 产品 编号 ProductID 以 及 产品 名 称 ProductName。 

E5.1m 输出 所 有 价格 低 于 平均 价格 的 产品 的 产品 编号 ProdcutID 、 产 品名 称 ProductName 以 及 代理 

商 名 称 VendorName。 

E5s.ln 输出 销量 最 多 产品 的 产品 编号 ProductID 。 

ES.1o 使 用 连接 语句 重 写 Query29 (不 使 用 舱 套 查询 )。 

ESs.1p ”使 用 连接 语句 重 写 Query30 (不 使 用 秀 套 查询 )。 


E5.2 在 HAFH 房地产 产权 管理 数据 库 中 写 出 能 实现 下 面 功能 的 SQL 查询 : 


ES,.23 
E53,2b 
ES 2e 
ES.2d 


输出 每 个 职员 的 编号 SMemberID 以 及 姓名 SMemberName - 

输出 每 个 企业 的 CCID、CCName 和 CCIndustry。 

输出 每 个 建筑 的 BuildingID、BNoOfFloors 以 及 经 理 的 MFName、MLName。 

对 那些 薪水 低 于 $55000 的 经 理 ， 输 出 其 MFName、MSalary、MBdate 以 及 所 管理 的 建筑 数量 。 


7Z0 


ES.2h 
ES.21 


甸 一 部 分 帮 作 型 绕 据 大 


输出 所 有 由 WindyCT 公司 租赁 的 房间 的 BuildingID 和 AptNo。 

偷 出 安排 表 中 排 在 1-JAN-2014 以 后 所 有 检查 员 的 InsID 和 InsName， 注 意 结 采 的 去 重 。 

对 那些 由 来 自 Chicago 地 区 的 公司 所 租赁 的 公寓 ， 输 出 这 些 公寓 的 清洁 人 员 的 SMemeberID 
和 SMemberName。 

对 所 有 Music industry 中 提 及 了 其 他 顾客 的 顾客 ， 输 出 该 顾客 及 提 及 顾客 的 CCName。 
输出 所 有 尚未 被 出 租 公 寓 的 BuildingID 、AptNo 以 及 ANoOfBedrooms， 


其 他 (更 大 型 ) 的 数据 集 在 dbtextbook.com 处 下 载 。 


小 案例 
小 案例 1 


Investco Scout 


e 为 第 3 章 小 案例 1 中 所 创建 的 关系 模式 描述 的 Investco Scout Funds 数据 库 编写 CREATE 
TABLE 语句 创建 关系 表 。 

。 假设 下 面 是 要 添加 到 第 2 章 小 案例 1 所 述 Investco Scout Funds 数据 库 需 求 中 的 额外 内 容 : 
Investco Scout 将 记录 每 个 投资 公司 的 CEOFName 以 及 CEOLName (除了 对 每 个 投资 公司 记录 


的 


唯一 公司 标识 、 唯 一 公司 名 称 以 及 公司 的 多 个 地 址 以 外 )。 


e 修改 第 2 章 小 案例 1 的 ER 图 以 反映 需求 的 相应 变化 。 
e 修改 第 3 章 小 案例 1 的 关系 模式 以 反映 需求 的 相应 变化 。 
e。 编写 反映 关系 模式 变化 的 ALTER TABLE 命令 。 
e 观察 下 面 关 于 投资 公司 以 及 共同 基金 的 信息 ， 创 建 INSERT INTO 语句 向 Investco Scout Funds 
数据 库 中 已 创建 好 的 关系 表 中 插入 以 下 信息 。 
投资 公司 
Company: ACF, Acme Finance CEO: Mick Dempsey Locations: Chicago, Denver 


Company: TCA, Tara Capital © CEO: Ava Newton Locations: Houston, New York City 


Company: ALB, Albritton CEO: Lena Dollar Locations: Atlanta, New York City 


证 券 (ID, Name, Type) 


AE Abhi Engineering Stock 
BH Blues Health Stock 
CM County Municipality Bond 
DU Downtown Utility Bond 
EM Emmitt Machines Stock 


共同 基金 (Inception Date, ID, Name, Mix) 


ACF: 

1/1/2005 BG Big Growth (500 AE Stocks, 300 EM Stocks) 
1/1/2006 SG Steady Growth (300 AE Stocks, 300 DU Bonds) 
TCA: 

1/1/2005 LF Tiger Fund (1000 EM Stocks, 1000 BH Stocks) 
1/1/2006 OF Owl Fund (1000 CU Bonds, 1000 DU Bonds) 
ALB: 

1/1/2005 JU Jupiter (2000 EM Stock, 1000 DU Bonds) 


1/1/2006 SA Saturn (1000 EM Stock, 2000 DU Bonds) 


小 案例 2 Funky Bizz 
e 为 第 3 章 小 案例 2 创建 的 关系 模式 所 描述 的 Funky Bizz Operations 数据 库 编 写 CREATE 


TABLE 语句 创建 关系 表 。 
e 使 用 INSERT INTO 语句 向 Funky Bizz Operations 数据 库 的 每 张 表 中 插入 至 少 2 条 至 多 10 条 
的 记录 。 


小 案例 3 Snooty Fashions 

为 第 3 章 小 案例 3 创建 的 关系 模式 所 描述 的 Snooty Fashions Operations 数据 库 编写 CREATE 
TABLE 语句 创建 关系 表 。 

使 用 INSERT INTO 语句 向 Snooty Fashions Operations 数据 库 的 每 张 表 中 插入 至 少 2 条 至 多 10 条 
的 记录 。 
小 案例 4 Signum Libri 

e 为 第 3 章 小 案例 4 创建 的 关系 模式 所 描述 的 Signum Libri Operations 数据 库 编 写 CREATE 


TABLE 语句 创建 关系 表 。 
e 使 用 INSERT INTO 语句 向 Signum Libri Operations 数据 库 的 每 张 表 中 搬入 至 少 2 条 至 多 10 条 
的 记录 。 


小 案例 5 ExoProtect 
e 为 第 3 章 小 案例 5 创建 的 关系 模式 所 描述 的 ExoProtect Employees ”Computers 数据 库 编 写 
CREATE TABLE 语句 创建 关系 表 。 
e 使 用 INSERT INTO 语句 向 ExoProtect Employees ”Computers 数据 库 的 每 张 表 中 插入 至 少 2 条 
至 多 10 条 的 记录 。 
小 案例 6 Jones Dozers 
e 为 第 3 章 小 案例 6 创建 的 关系 模式 所 描述 的 Jones Dozers Sales and Rentals 数据 库 编写 
CREATE TABLE 语句 创建 关系 表 。 
e 使 用 INSERT INTO 语句 向 Jones Dozers Sales and Rentals 数据 库 的 每 张 表 中 插 人 至 少 2 条 至 
多 10 条 的 记录 。 
小 案例 7 Midtown Memorial 
e 为 第 3 章 小 案例 7 创建 的 关系 模式 所 描述 的 Midtown Memorial Patients Drug Dispensal 数据 库 
编写 CREATE TABLE 语句 创建 关系 表 。 
e 使 用 INSERT INTO 语句 问 Midtown Memorial Patients Drug Dispensal 数据 库 的 每 张 表 中 插 人 
至 少 2 条 至 多 10 条 的 记录 。 
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6.1 引言 


前 面 的 章节 介绍 了 如 何 使 用 SQL 语言 来 创建 数据 库 并 与 之 进行 交互 ， 本 章 将 会 讨论 有 
关 数 据 库 实现 与 使 用 的 附加 问题 ， 尤 其 关注 与 业务 设计 者 和 使 用 者 最 为 相关 的 问题 。( 而 物 
理 方面 的 设计 问题 涉及 硬件 和 软件 的 配置 ， 比 如 数据 库 在 硬件 驱动 上 的 物理 配置 ， 这 些 则 超 
出 了 本 书 的 范围 。) 本 章 覆 盖 的 主题 包括 : 

e 实现 删除 、 更 新 ?操作 参照 完整 性 约束 的 选项 。 

e 实现 用 户 自 定 义 约束 。 

。 索引 。 

e。 数据 库 前 端 。 

。 数据 质量 问题 . 
6.2 ”参照 完整 性 约束 : 实现 删除 和 更 新 操作 

参照 完整 性 约束 规定 了 带 外 码 的 表 和 被 外 码 参 照 的 带 主 码 的 表 之 间 的 关系 。 在 第 3 章 中 


参照 完整 性 约束 
在 包含 外 码 的 关系 中 ， 每 一 行 的 外 码 取 值 要 么 对 应 其 参照 关系 中 的 主 码 取 值 ， 
要 么 为 空 , 


考察 图 6-1 所 示 的 一 个 简单 例子 。 


EMPLOYEE DEPARTMENT 
EmpID DeptID 


EmpName DeptLocation 
DeptID (Fx] 


图 6-1 两 个 关系 和 一 个 参照 完整 性 约束 





在 这 个 例子 中 ， 关 系 EMPLOYEE 中 外 码 DeptID 参照 关 系 DEPARTMENT 中 主 码 
DeptID - 

图 6-1a 展示 的 场景 中 ， 关 系 EMPLOYEE 和 DEPARTMENT 之 中 的 值 都 遵循 参照 完整 
性 约束 ， 关 系 EMPLOYEE 的 外 码 DeptiD 中 每 一 个 值 都 匹配 被 参照 关系 DEPARTMENT 中 
主 码 的 值 。 关 系 EMPLOYEE 中 的 第 一 条 和 第 三 条 记录 的 外 码 DeptID 值 为 1!， 匹 配 关系 


DEPARTMENT 中 的 第 一 条 记录 的 主 码 值 。 关 系 EMPLOYEE 中 的 第 二 条 和 第 四 条 记录 的 外 


日 与 第 4 章 所 提 到 的 一 样 ， 术 语 “ 更 新 ”在 实际 中 通常 作为 修改 的 同义词 使 用 (此 操作 改变 了 关系 中 记录 的 
值 )， 而 不 是 包含 插 人 人、 删除 、 修 改 的 更 一 般 性 的 术语 在 本 章 中 ,“ 更 新 ” 仅 作为 修改 操作 的 同义词 。 
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码 DeptID 值 为 2， 匹配 关系 DEPARTMENT 中 的 第 二 条 记录 的 主 码 值 。 


EMPLOYEE DEPARTMENT 











EmplD EmpName DeptiD 
1 |SuteA 
2 |suee 
| 
2 





图 6-la 参照 完整 性 约束 : 一 个 例子 


参照 完整 性 约束 将 会 影响 到 通过 联系 关联 到 一 起 的 所 有 关系 对 于 记录 的 删除 与 更 新 ( 修 
改 ) 操作 。 主 码 侧 对 记录 的 删除 和 更 新 会 影响 外 码 侧 的 记录 ， 而 外 码 侧 对 记录 的 删除 和 更 新 
不 会 影响 主 码 侧 的 记录 。 例 如 ， 在 本 章 中 将 会 看 到 ， 关 系 DEPARTMENT 中 对 记录 的 删除 
和 更 新 将 会 影响 关系 EMPLOYEE 中 的 记录 ， 而 关系 EMPLOYEE 中 对 记录 的 删除 和 更 新 将 
不 会 影响 关系 DEPARTMENT 中 的 记录 。 


6.2.1 删除 选项 


目前 的 DBMS 涵盖 了 多 种 选项 以 实现 关于 删除 和 更 新 操作 的 参照 完整 性 约束 。 本 节 将 
会 通过 图 6-1a 所 示 的 例子 来 演示 这 些 选 项 。 


首先 讨论 实现 删除 操作 参照 完整 性 的 多 种 选项 。 当 试图 删除 被 参照 关系 中 的 主 码 值 时 ， 
这 些 选项 将 决定 包含 外 码 的 关系 中 的 记录 将 会 发 生 什 么 变化 。 

1. 限制 删除 

如 果 记 录 的 主 码 值 被 一 个 外 码 值 所 参照 ， 限 制 删除 ( delete restrict) 选项 将 不 允许 该 记 
录 被 删除 。 


例如 ， 在 图 6-1a 中 ， 参 照 完整 性 约束 连接 关系 DEPARTMENT 中 主 码 DeptID 列 和 关 
系 EMPLOYEE 中 外 码 DeptID 列 ， 考 虑 对 其 实施 限制 删除 选项 的 情况 。 在 这 种 情况 下 ， 关 
系 DEPARTMENT 中 显示 的 前 两 条 记录 (1，Suite A) 和 (2，Suite B) 不 能 删除 ， 但 是 第 三 
条 记录 (3，Suite C) 可 以 删除 。 任 何 试图 删除 关系 DEPARTMNET 中 前 两 条 记录 的 操作 都 
会 被 DBMS 阻止 ， 同 时 会 提供 错误 信息 报告 ， 提 示 用 户 此 删除 操作 不 被 允许 (非法)。 然 而 ， 
删除 关系 DEPARTMENT 中 的 第 三 条 记录 (3，Suite C) 是 合法 的 ， 因 为 在 表 EMPLOYEE 
中 没有 记录 的 外 码 DeptID 列 值 为 3。 参 见 图 6-2。 


EMPLOYEE DEPARTMENT 


不 能 删除 
可 以 删除 





图 6-2 参照 完整 性 约束 : 一 个 限制 删除 选项 的 例子 


2. 级 联 删 除 
如 果 记 录 的 主 码 值 被 一 个 外 码 值 所 参照 ， 级 联 删 除 ( delete cascade) 选项 允许 该 记录 被 
删除 。 但 是 ,那些 外 码 值 参照 了 被 删除 记录 主 码 值 的 记录 也 会 被 删除 。 换 名 话说， 删除 操作 
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从 包含 了 被 参照 主 码 的 表 级 联 到 外 码 所 在 的 表 。 
例如 ， 在 图 6-la 中 .参照 完整 性 约束 连接 关系 DEPARTMENT 中 主 码 DeptID 列 和 

关系 EMPLOYEE 中 外 码 DeptID 列 ， 考 虑 对 其 实施 级 联 删除 选项 的 情况 。 这 里 假设 删除 
关系 DEPARTMENT 中 显示 的 第 一 条 记录 (1，Suite A)， 此 删除 操作 将 会 自动 导致 关系 
EMPLOYEE 中 显示 的 第 一 条 和 第 三 条 记录 ， 即 (1234，Becky，1 ) 和 (345$6，Rob，1 ) 也 
被 删除 。 图 6-3 显示 的 是 此 删除 操作 的 结果 

删除 前 

EMPLOYEE DEPARTMENT 
DeptLocation 
SA | 
2 lsueB | 
3/ ”lsutec 













DEPARTMENT 


nen ee ott mp ee 


图 6-3 ”参照 完 整 性 约束 : 一 个 级 联 删 除 选项 的 例子 


注意 ， 如 果 有 一 个 额外 的 关系 表 ， 其 外 码 值 参照 了 EMPLOYEE 表 的 EmpID 列 ， 则 级 
联 删 除 也 会 涉及 这 张 表 。 例 如 ， 这 个 额外 关系 表 中 外 码 参 照 了 了 EmpID 为 1234 或 3456 的 所 
有 列 都 会 被 删除 。 

同时 需要 注意 删除 DEPARTMENT 表 中 的 记录 (3，Suite C) 将 不 会 级 联 到 
EMPLOYEE 表 ， 因 为 表 EMPLOYEE 中 没有 外 码 DeptID 值 为 3。 

3. 删除 设置 为 空 


如 果 记 录 的 主 码 值 被 另 一 关系 中 记录 的 外 码 值 所 参照 ， 删 除 设置 为 空 (delete set-to- 
null) 选项 允许 该 记录 被 删除 。 同 时 ， 那 些 外 码 值 参照 了 被 删除 记录 主 码 值 的 记录 ， 其 外 码 值 
将 会 被 设置 为 空 。 


例如 ， 在 图 6-1a 中 ， 参 照 完 整 性 约束 连接 关系 DEPARTMENT 中 主 码 DeptID 列 和 关系 
EMPLOYEE 中 外 码 DeptID 列 ， 考 虑 对 其 实施 删除 设置 为 空 选 项 的 情况 。 这 里 假设 删除 关 
系 DEPARTMENT 中 的 第 一 条 记录 (1，Suite A)， 此 删除 操作 会 自动 导致 关系 EMPLOYEE 
中 的 第 一 条 和 第 三 条 记录 ， 即 (1234，Becky，1 ) 和 (3456，Rob，1 ) 的 外 码 DeptID 值 被 
删除 。 图 6-4 显示 的 是 此 删除 操作 的 结果 。 

4. 删除 设置 为 默认 值 

如 果 记 录 的 主 码 值 被 男 一 关系 中 记录 的 外 码 值 所 参照 ， 删 除 设 置 为 默认 值 ( delete set- 
to-default) 选项 允许 该 记录 被 删除 。 同 时 ， 那 些 参 照 了 被 删除 记录 主 码 值 的 记录 ， 其 外 码 值 
将 会 被 设置 为 预先 定义 的 默认 值 。 

例如 ， 在 图 6-1a 中 ， 参 照 完 整 性 约束 连接 关系 DEPARTMENT 中 主 码 DeptID 列 和 关系 
EMPLOYEE 中 外 人 码 DeptID 列 ， 考 虑 对 其 实施 删除 设置 为 默认 值 选 项 的 情况 。 这 里 假设 一 
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个 部 门 即将 解散 ， 因 此 ， 将 会 删除 关系 DEPARTMENT 中 该 部 门 的 记录 ， 被 删除 部 门 的 所 

有 雇员 将 会 被 移 到 部 门 3。 因 此 ， 关 系 EMPLOYEE 中 外 码 DeptID 列 的 值 预先 设置 的 默认 

值 为 3 删除 关系 DEPARTMENT 中 显示 的 第 一 条 记录 ( 1，Suite A)， 此 删除 操作 会 自动 导 [180] 
致 关系 EMPLOYEE 中 显示 的 第 一 条 和 第 三 条 记录 ， 即 ( 1234, Becky, 1 ) 和 (3456,Rob,1 ) 

的 外 码 DeptID 列 值 被 设置 为 3。 图 6-5 显示 的 是 此 删除 操作 的 结果 。 


删除 前 
EMPLOYEE DEPARTMENT 





1 


删除 后 
EMPLOYEE DEPARTMENT 


DeptID DeptLocation 





图 6-4 参照 完整 性 约束 : 一 个 删除 设置 为 空 选项 的 例子 


删除 前 
EMPLOYEE DEPARTMENT 


























EmpiD EmpName | DeptID DeptID | DeptLocation 
DE 7 


vy | 
Rob sf lsmec | 


删除 一 条 记录 





删除 后 
EMPLOYEE DEPARTMENT 


DeptiD 

















EmplD | EmpName 


\ 
a56 ke la | 


图 6-5 参照 完整 性 约束 : 一 个 删除 设置 为 默认 值 选 项 的 例子 


注意 ， 无 论 将 何 种 删除 选项 (限制 、 级 联 、 设 置 为 空 、 设 置 为 默认 值 ) 运用 于 参照 完 
整 性 约束 ， 如 图 6-1a 所 示 ， 表 EMPLOYEE 中 的 任意 记录 都 可 以 自由 删除 ， 同 时 不 会 对 表 
DEPARTMENT 造成 任何 影响 。 表 EMPLOYE 中 的 记录 可 以 自由 删除 的 原因 是 没有 其 他 关 
系 参 照 它 (将 其 主 码 作 为 外 码 )。 
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6.2.2 ”更 新 选项 

接 下 来 讨论 实现 更 新 操作 参照 完整 性 的 多 种 选项 。 当 试图 更 新 (改变 ) 被 参照 关系 中 主 
码 的 值 时 ， 这 些 选项 决定 了 包含 外 码 的 关系 中 的 记录 将 会 发 生 什么 变化 。 更 新 选项 和 之 前 讨 
论 的 删除 选项 相 类 似 。 和 删除 选项 的 情况 一 样 ， 更 新 选项 讨论 的 是 参照 完整 性 关系 中 主人 码 侧 
的 记录 更 新 操作 带 来 的 影响 ， 而 不 是 外 码 侧 的 记录 更 新 操作 带 来 的 影响 。 

1. 限制 更 新 

如 果 记 录 的 主 码 值 被 一 个 外 码 值 参照 ， 限 制 更 新 ( update restrict) 选项 不 允许 该 记录 主 
码 值 被 修改 。 

例如 ， 在 图 6-1a 中 ， 参 照 完 整 性 约束 连接 关系 DEPARTMENT 中 主 码 DeptID 列 和 关系 
EMPLOYEE 中 外 码 DeptID 列 ， 考 虑 对 其 实施 限制 更 新 选项 的 情况 。 在 这 种 情况 下 ， 关 系 
DEPARTMENT 中 显示 的 前 两 条 记录 (1，Suite A) 和 (2，Suite B) 的 主 码 值 不 能 被 修改 。 
任何 试图 修改 关系 DEPARTMNET 中 前 两 条 记录 的 操作 都 会 被 DBMS 阻止 ， 同 时 会 提供 错 
误 信 息 报告 ， 提 示 用 户 此 更 新 操作 不 被 允许 (非法 )。 然 而 ， 更 新 关系 DEPARTMENT 中 的 
第 三 条 记录 (3，Suite C) 是 合法 的 ， 因 为 在 表 EMPLOYEE 中 没有 记录 的 外 码 DeptID 列 值 


为 3 具体 操作 参见 图 606-6 9 


EMPLOYEE 


Emplp | EmpName |DeptD | 
DE 


3456 Rob 
















DEPARTMENT 











DeptID | DeptLocation 


| 
2 jsoee | 
av jsec 


可 以 更 新 


不 能 更 新 






图 6-6 参照 完整 性 约束 : 一 个 限制 更 新 选项 的 例子 


2. 级 联 更 新 

如 果 记 录 的 主 码 什 被 一 个 外 码 值 参照 ， 级 联 更 新 (update cascade) 选项 允许 该 记录 的 主 
码 值 被 修改 。 同 时 ， 那 些 参 照 被 修改 记录 主 码 值 的 记录 的 外 码 值 也 会 被 修改 为 新 的 值 。 换 名 
话说 ， 更 新 操作 从 包含 被 参照 主 码 的 表 级 联 到 外 码 所 在 的 表 。 

例如 ， 在 图 6-1a 中， 参照 完整 性 约束 连接 关系 DEPARTMENT 中 主 码 DeptID 列 和 
关系 EMPLOYEE 中 外 码 DeptID 列 ， 考 虑 对 其 实施 级 联 更 新 选项 的 情况 。 这 里 假设 关系 
DEPARTMENT 中 显示 的 第 一 条 记录 (1，Suite A) 的 主 码 值 由 1 更 改 为 8， 此 更 新 操作 将 会 
目 动 导致 关系 EMPLOYEE 中 显示 的 第 一 条 和 第 三 条 记录 ， 即 ( 1234, Becky, 1 ) 和 (3456， 
Rob，1 ) 的 外 码 DeptID 列 值 也 由 1 更 改 为 8。 图 6-7 显示 的 是 此 更 新 操作 的 结果 。 

3. 更 新 设置 为 空 

如 果 记 录 的 主 码 值 被 另 一 关系 的 外 码 值 参照 ， 更 新 设置 为 空 ( update set-to-null) 选项 允 
许 该 记录 的 主 码 值 被 修改 。 因 此 ， 那 些 外 码 值 参 照 被 更 新 记录 的 主 码 值 的 记录 ， 其 外 码 值 将 
会 被 设置 为 空 。 

例如 ， 在 图 6-1a 中 ， 参 照 完整 性 约束 连接 关系 DEPARTMENT 中 主 码 DeptID 列 和 关 
系 EMPLOYEE 中 外 码 DeptID 列 ， 考 虑 对 其 实施 更 新 设置 为 空 选项 的 情况 。 这 里 假设 关系 
DEPARTMENT 中 显示 的 第 一 条 记录 ( 1，Suite A) 的 主 码 值 由 1 更 改 为 8， 此 更 新 操作 将 会 
目 动 导致 关系 EMPLOYEE 中 显示 的 第 一 条 和 第 三 条 记录 ， 即 (1234, Becky, 1 ) 和 (3456， 
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Rob，1 ) 的 外 码 DeptID 列 的 值 被 删除 。 图 6-8 显示 的 是 此 更 新 操作 的 结 采 。 


更 新 前 
EMPLOYEE DEPARTMENT 


EmpiID EmpName | DeptiD DeptID | DeptLocation 


7 see | 


将 记录 的 值 由 1 更 新 为 8 













更 新 后 
EMPLOYEE DEPARTMENT 





















EmplD EmpName | DeptiD 


a ay la 
asse ke | 


图 6-7 参照 完整 性 约束 : 一 个 级 联 更 新 选项 的 例子 


DeptLocation 


8 [smeA 









更 新 前 
EMPLOYEE DEPARTMENT 


Mo 





/ 
将 记录 的 值 由 1 更 新 为 8 


蝎 新 后 
EMPLOYEE DEPARTMENT 


1234 | Becky 








DeptLocation 


| Suite A 
| Suite B 


SuteC 


2345 Molly | 才 
3456 Rob 
1324 Ted 2 





图 6-8 参照 完整 性 约束 : 一 个 更 新 设置 为 空 选项 的 例子 


4. 更 新 设置 为 默认 值 

如 果 记 录 的 主 码 值 被 另 一 关系 的 外 码 值 参照 ， 更 新 设置 为 默认 值 ( update set-to-default) 
选项 允许 该 记录 的 主 码 值 被 修改 。 同 时 ， 那 些 参照 被 更 新 记录 的 主 码 值 的 记录 ， 其 外 码 值 将 
会 被 设置 为 预先 定义 的 默认 值 。 

例如 ， 在 图 6-1a 中 ， 参 照 完整 性 约束 连接 关系 DEPARTMENT 中 主 码 DeptID 和 
系 EMPLOYEE 中 外 码 DeptID 列 ， 考 虑 对 其 实施 更 新 设置 为 预先 设置 的 默认 值 的 情况 。 这 
ne 
部 门 。 因 此 ， 关 系 EMPLOYEE 中 外 码 DeptID 列 的 值 预先 设置 的 默认 值 为 3。 此 更 新 操作 
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将 会 自动 导致 关系 EMPLOYEE 中 显示 的 第 一 条 和 第 三 条 记录 ， 即 (1234，Becky,，1 ) 和 
(3456，Rob，1 ) 的 外 码 DeptID 列 的 值 被 更 改 为 3。 图 6-9 显示 的 是 此 更 新 操作 的 结 采 。 


更 新 前 
EMPLOYEE DEPARTMENT 


aro eng oa 


Ta 1 | 





DeptiD DeptLocation 


Sen 















2 
a56 ke | Sune C 








将 记录 的 值 由 1 更 新 为 8 





更 新 后 

EMPLOYEE DEPARTMENT 

EmplD DeptiD DeptiD DeptLocation 

Becy |3 SeA 

2 
Rob |3 









3456 
图 6-9 参照 完整 性 约束 : 一 个 更 新 设置 为 默认 值 选 项 的 例子 


注意 ， 无 论 将 何 种 更 新 选项 (限制 、 级 联 、 设 置 为 空 、 设 置 为 默认 值 ) 运用 于 参照 完 
整 性 约束 ， 表 EMPLOYEE 中 的 任意 记录 都 可 以 自由 更 新 为 不 违反 参照 完整 性 (或 者 其 他 
关系 数据 库 约 束 ) 的 任何 值 ， 同 时 不 会 对 表 DEPARTMENT 造成 任何 影响 。 在 本 例 中 ， 表 
EMPLOYEE 中 DeptID 列 的 值 只 能 更 改 为 1、2 或 3， 任何 其 他 值 均 会 违反 参照 完整 性 约束 。 





6.2.3 ”实现 删除 和 更 新 选项 


下 面 的 SQL 代码 包含 了 实现 表 EMPLOYEE 中 外 码 DeptID 和 表 DEPARTMENT 中 主 码 
DeptID 之 间 参 照 完整 性 约束 的 声明 。 


CREATE TABLE employee 


( empid CHAR (4), 
empname CHAR (20),， 
deptid CHAR (2), 
PRIMARY KEY (empid), 
FOREIGN KEY (deptid) REFERENCES department) ; 


对 删除 和 更 新 操作 而 言 ， 默 认 的 SQL 选项 是 有 限制 的 。 换 句 话 说， 对 于 表 EMPLOYEE 中 
外 码 DeptID 和 表 DEPARTMENT 中 主 码 DeptID 之 间 的 参照 完整 性 约束 ， 以 上 代码 实现 的 
是 限制 删除 和 限制 更 新 选项 。 

当然 ，SQL 人 允许 指定 其 他 删除 和 更 新 选项 。 下 面 给 出 指定 一 个 非 限 制 的 删除 选项 的 实 
例 。 比 如 ， 对 于 表 EMPLOYEE 中 外 码 DeptID 和 表 DEPARTMENT 中 主 码 DeptID 之 间 的 
参照 完整 性 约束 来 说 ， 以 下 SQL 代码 实现 的 是 级 联 删 除 选 项 。 


CREATE TABLE employee 
人 empia CHAR (4), 
empname CHAR (20), 


昌 并 非 每 一 个 DBMS 都 涵盖 了 本 章 中 提 到 的 所 有 删除 和 更 新 选项 ， 其 至 不 同 的 DBMS 将 实现 不 同 的 删除 和 更 
新 选项 。 实 现 删 除 和 更 新 选项 的 语义 和 方法 在 不 同 DBMS 中 各 不 相同 ， 这 里 给 出 的 例子 说 明了 这 一 情况 。 
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deptid CHAR (2), 
PRIMARY KEY (empid), 
FOREIGN KEY (deptid) REFERENCES department 


ON DELETE CASCADE) ; 


接 下 来 给 出 的 例子 是 指定 一 个 非 限 制 的 更 新 选项 。 对 于 表 EMPLOYEE 中 外 码 DeptID 和 表 
DEPARTMENT 中 主 码 DeptID 之 间 的 参照 完整 性 约束 来 说 ， 以 下 SQL 代码 实现 更 新 设置 为 


空 选项 。 
CREATE TABLE employee 
( empid CHAR (4), 
empname CHAR (20) ， 
deptid CHAR {2),， 
PRIMARY KEY (empid), 
FOREIGN KEY (deptid) REFERENCES department 


ON UPDATE SET NULL); 
最 后 ， 给 出 同时 指定 非 限 制 的 删除 和 更 新 选项 的 例子 。 对 于 表 EMPLOYEE 中 外 码 DeptID 
和 表 DEPARTMENT 中 主 码 DeptID 之 间 的 参照 完整 性 约束 来 说 ， 以 下 SQL 代码 实现 的 是 级 
联 删 除 和 更 新 设置 为 空 选项 。 


CREATE TABLE employee 


( empid CHAR (4), 
empname CHAR (20), 
deptid CHAR (2), 
PRIMARY KEY (empid)}, 
FOREIGN KEY (deptid) REFERENCES department 


ON DELETE CASCADE 
ON UPDATE SET NULL) ; 


作为 以 上 SQL 例子 的 补充 ， 这 里 用 一 幅 图 展示 MS Access 是 如 何 实 现 删除 和 更 新 选项 的 。 
图 6-10 展示 的 即 是 MS Access 允许 设计 者 设置 删除 和 更 新 选项 的 特性 。 对 于 基于 SQL 的 系 
统 来 说 ， 默 认 的 删除 和 更 新 都 是 设置 为 限制 的 。 但 是 ， 正 如 图 6-10 所 示 ， 用 户 可 以 选择 级 
联 的 删除 或 更 新 选项 ， 还 可 同时 选择 级 联 的 删除 和 更 新 选项 。 





轴 
人 I/ el pe nisl poe 人 
篇 姓 | 
au， | 
” > DeptiD | 
L Y Tie 申 pny /a 3 如 - 








图 6-10 ”MS Access 中 更 新 和 删除 选项 的 例子 


6.3 ”实现 用 户 自 定义 约束 
在 第 3 章 定义 了 术语 “用 户 自 定义 约束 "， 同 时 给 出 了 一 些 示 例 。 与 删除 和 更 新 选项 一 
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样 ， 不 同 的 DBMS 包 实 现 用 户 自 定义 约束 也 是 不 同 的 。 本 节 将 通过 一 个 示例 展示 用 户 自 定 
义 约 束 的 SQL 实现 机 制 
6.3.1 CHECK 子 句 

在 SQL 中 实现 用 户 自 定义 约束 的 一 种 方法 是 CHECK 子 句 。 作 为 示例 ， 考 察 图 6-11 中 
所 示 的 例子 。 


实体 
EMPLOYEE 
* 薪水 值 必 须 在 $50 000 一 $200 000 之 加 
得 到 的 关系 
EMPLOYEE 
EmpID 
Salary 


图 6-11 一 个 带 有 用 户 自 定义 约束 的 关系 


在 这 个 例子 中 ， 用 户 自 定义 约束 为 指定 关系 EMPLOYEE 中 Salary 列 的 值 在 50 000 一 
200 000 之 间 。 

以 下 代码 为 本 例 中 关系 EMPLOYEE 的 SQL CREATE TABLE 声明 语句 : 

CREATE TABLE employee 

(empid CHAR (4) ， 


salary NUMBER (6) CHECK (salary >= 50000 AND salary <= 200000) ， 
PRIMARY KEY (empid)}),; 


在 这 种 情况 下 ，CHECK 子 句 执行 的 是 用 户 自 定义 约束 ， 不 允许 加 入 薪水 不 在 指定 区 间 
的 雇员 。 例 如 ， 考 察 以 下 六 条 声明 语句 : 


INSERT INTO employee VALUES ('1234', 75000),; 
INSERT INTO employee VALUES ('2345', 50000).， 
INSERT INTO employee VALUES ('3456', S55000); 
INSERT INTO employee VALUES (1324', 70000),， 
INSERT INTO employee VALUES {1'9876', 270000); 
INSERT INTO employee VALUES ('1010', 30000); 


前 四 条 语句 可 以 顺利 执行 ， 而 后 两 条 语句 则 被 拒绝 执行 ， 因 为 其 违反 了 用 户 自 定义 约束 。 执 
行 以 上 语句 之 后 关系 EMPLOYEE 的 结果 如 图 6-12 所 示 。 


EMPLOYEE 






en 


3456 | 55000 


图 6-12 ”四 个 插入 操作 被 接受 ， 两 个 被 拒绝 
正如 上 例 所 示 ，CHECK 子 句 可 以 用 来 指定 一 个 关系 表 中 某 一 特定 列 的 约束 。 以 下 例子 
则 演示 了 如 何 利 用 CHECK 子 句 来 指定 多 列 的 约束 。 考 察 图 6-13 所 示 的 例子 。 
在 此 例 中 ， 一 条 业务 规则 为 学 生 的 毕业 年 份 不 能 早 于 入 学 年 份 。 
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以 下 代码 为 创建 关系 STUDENT 的 SQL CREATE TABLE 声明 语句 : 


YearOfGraduations 





STUDENT 


*YearOfGraduation 不 能 超过 YearEnrolled 
得 到 的 关系 


STUDENT 
studentID 


YearEnrolled 
YearOfGraduation 


图 6-13 “ 另 一 个 带 有 用 户 自 定义 约束 的 关系 





CREATE TABLE student 

(studentid CHAR (4), 

yearenrolled INT， 

yearofgraduation INT， 

PRIMRRY KEY (‘studentid), 

CHECK (yearenrolled <= yearotgqraduation) ) ; 


在 这 种 情况 下 ，CHECK 子 句 执行 的 是 用 户 自 定义 约束 ， 不 允许 插入 毕业 年 份 早 于 入 学 年 份 
的 学 生 。 例 如 ， 考 察 以 下 四 条 声明 语句 : 

LNSERY INTIQ student VALUES, (LELL; 2012, 2Z20N6); 

INSERT INTO student VALUES ('2222', 2013, 2017),， 

INSERT INTO studernt VALUYUES (3333"; 2013, 2017); 

INSERT INTO student VALUES ('4444', 2013, 2012), STUDENT 


前 三 条 语句 可 以 顺利 执行 ， 而 最 后 一 条 语句 则 被 拒 。 | Studenud| YearEnrolled | YearotGradvation| 
绝 执 行 ， 因 为 其 违反 了 用 户 自 定义 约束 。 执 行 以 上 


2222 
五 三 中 2 十 果 . 力 口 [ 本 
语句 之 后 关系 STUDENT 的 结果 如 图 6-14 所 示 。 


6.3.2 ”实现 用 户 自 定义 约束 的 其 他 机 制 图 6-14 三 个 插入 操作 被 接受 ， 一 个 被 拒绝 


作为 CHECK 机 制 的 补充 ， 还 有 许多 其 他 实现 用 户 自 定义 约束 的 更 为 复杂 的 方法 。 这 些 
方法 包括 断言 和 触发 如 (在 6.7 节 有 演示 )、 使 用 特定 的 数据 库 编 程 语言 编程 、 结 合 SQL 以 
及 非 SQL 语句 处 理 数据 库 中 的 数据 (如 PL/SQL )、 在 常规 的 编程 语言 代码 内 嵌入 SQL 语句 
(如 C++ 或 Java)。 在 多 数 情况 下 ， 用 户 自 定义 逻辑 不 是 作为 数据 库 的 一 部 分 来 实现 ， 而 是 
作为 数据 库 前 端 应 用 的 一 部 分 。 

为 了 更 好 地 使 用 数据 库 ， 完 整地 实现 用 户 自 定义 约束 显得 十 分 重要 。 正 如 上 文 提 到 的 ， 
有 多 种 方法 可 实现 用 户 自 定义 约束 。 从 商业 角度 考虑 ， 用 户 自 定义 约束 的 执行 力 比 选择 何 种 
方法 来 实现 该 约束 更 重要 。 通 常 ， 当 存在 多 种 可 选择 的 方法 时 ， 会 从 技术 角度 做 出 选择 ， 比 
如 选择 执行 速度 最 快 的 方法 。 


6.4 索引 


在 对 一 个 有 大 量 记 录 的 关系 进行 数据 查询 和 检索 时 ， 索 引 (index) 是 一 种 加 速 机制 。 多 
数 关 系 型 DBMS 软件 工具 都 允许 定义 索引 。 以 下 例子 是 对 索引 原则 在 概念 上 的 简单 说 明 。 

图 6-15 展示 的 是 关系 CUSTOMER。 在 实际 情况 下 ， 这 样 一 张 表 中 会 有 大 量 的 记录 ， 为 
便于 观察 ， 这 里 只 显示 了 13 条 记录 。 这 张 关系 表 是 基于 CustID 排序 之 后 的 结果 ， 因 此 ， 剩 
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下 的 CustName 列 以 及 Zip 列 是 乱 序 的 。 

基于 未 排序 列 的 值 查找 某 一 特定 记录 的 过 程 称 为 线性 / 顺序 
查找 ( linear/sequential search ) 。 该 搜索 顺序 地 逐一 匹配 每 一 个 元 
素 的 值 ， 直 到 找到 所 要 查找 的 内 容 。 比 如 ， 假 设 需 要 通过 姓名 来 
查找 名 为 Steve 的 客户 。 因 为 CustName 列 未 排序 ， 所 以 必须 使 
用 线性 查找 ， 从 第 一 条 记录 开始 逐一 检查 CustName 列 的 值 ， 直 
到 找到 Steve。 在 这 个 例子 中 ， 前 8 条 记录 的 CustName 列 的 值 都 
会 被 检查 ， 直 到 检查 第 9 条 记录 (1008，Steve，60222 ) 为 止 ， 
如 图 6-16 所 示 。 

基于 已 排序 的 值 查找 某 一 特定 记录 时 ， 利 用 非 线 性 查找 可 以 
很 快 得 到 结果 。 二 分 查找 ( binary search) 即 为 非 线 性 查找 方法 
明显 快 于 线性 查找 方法 的 一 个 例子 。 二 分 查找 利用 排序 之 后 的 列 
表 ， 通 过 查找 列表 中 间 的 值 ， 将 其 分 为 规模 相同 的 两 部 分 (强调 
二 分 )。 如 果 查 找 内 容 的 值 大 于 列表 中 间 的 值 ， 则 列表 的 前 半 部 
分 将 会 从 查找 空间 中 消去 。 相 应 地 ， 如 果 查 找 内 容 的 值 小 于 列表 


CUSTOMER 










002 |wat |6o222 
ooa [taa |60555 
004 |Pam |60444 
oo |say 60555 

Bob |60333 | 
1007 [Adam |60555 | 
008 |Pam 











60333 


1010 |Ema |60111 
1011 |Peter |60666 | 


图 6-15 CUSTOMER 关系 







中 间 的 值 ， 则 列表 的 后 半 部 分 将 会 从 查找 空间 中 消去 。 不 管 是 哪 种 方式 ， 经 过 这 样 简单 的 一 
步 ， 查 找 空间 就 减少 了 一 半 。 在 余下 的 列表 空间 内 重复 执行 以 上 步骤 ， 直 到 找到 所 要 查找 的 


内 容 。 
CUSTOMER 


000 [za son 
oo ara |6osas 
002 [Man |60222 
003 fiara |60555 | 
1004 






(不 是 Steve) 
步骤 2 (不 是 Steve) 
步骤 3 (不 是 Steve) 
步骤 4 (不 是 Steve) 
步骤 5 (不 是 Steve) 
步骤 6 (不 是 Steve) 
步骤 7 (不 是 Steve) 
步骤 8 (不 是 Steve) 















1007 |Adam |60555 
008 |seve |60222 
oo |Pam |60333 
oo [ema eo 


图 6-16 一 个 线性 查找 的 例子 







找到 客户 Steve 


例如 ， 假 设 需要 查找 CustID 号 为 1008 的 客户 记录 。 如 图 6-17 所 示 ， 二 分 查找 首先 查 
找 表 中 间 位 置 的 记录 ， 其 CustID 号 为 1006。 因 为 1006 小 于 1008， 接 下 来 的 查找 将 会 忽略 
表 的 前 半 部 分 记录 ， 同 时 考察 表 余 下 部 分 中 间 位 置 的 记录 的 CustID 值 。 其 值 为 1010， 大 于 
1008， 因 此 接 下 来 的 查找 将 会 忽略 余下 部 分 的 后 半 部 分 。 目 前 为 止 ， 查 找 空 间 已 经 进一步 减 
少 。 接 下 来 的 查找 将 会 继续 考察 余下 部 分 中 间 位 置 记 录 的 CustID 值 。 其 值 即 为 1008 ， 查 找 


结束 ， 找 到 记录 (1008，Steve，60222 ) 。 


注意 ， 二 分 查找 法 比 线性 查找 法 需要 的 步骤 少 得 多 。 再 如 ， 考 察 从 按 姓氏 字母 排序 的 电 
话 血 中 查找 给 定 姓氏 的 电话 号 码 。 因 其 已 经 排 好 序 ， 故 可 以 采用 二 分 查找 法 。 从 这 本 电话 竹 


的 中 间 页 码 开 始 ， 忽 略 不 包含 待 查找 姓氏 的 部 分 。 多 次 重复 以 上 缩减 查找 空间 的 步骤 之 后 ， 
就 可 找到 待 查找 的 电话 号 码 。 现 在 假设 有 一 个 特定 电话 号 码 ， 需 要 查找 该 电话 号 码 对 应 的 用 
户 名 。 因 为 电话 号 码 并 未 排序 ， 所 以 必须 使 用 线性 查找 法 。 可 以 想象 ， 在 找到 这 个 特定 号 码 


之 前 需要 查找 大 量 的 电话 号 码 是 一 件 多 么 漫 
CUSTOMER 


000 Zan on 
1001 |Ana e033 
1002 [Man |60222 
1o03 | tara |60555 
1004 Pam |60444 
1005 | Saly [60555 
1006 |Bob e033 
009 |Pam |60333 
oo 


1011 |Peter | 
L1012 | Fiona ~ 
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长 而 痛苦 的 事 。 


步骤 1 消去 在 这 之 上 的 记录 
(由 于 CustID 值 小 于 1008 ) 
步骤 3 找到 客户 1008 


步骤 2 消去 在 这 之 下 的 记录 
(由 于 CustID 值 大 于 1008 ) 


图 6-17 一 个 二 分 查找 的 例子 


当 关 系 表 基于 某 一 列 的 值 排序 之 后 ， 其 他 列 必 然 为 乱 序 。 正 如 上 文 提 到 的 ， 查 找 未 排序 
列 的 值 比 已 排序 列 的 值 要 慢 得 多 .基于 索引 的 查找 可 以 加 快 对 未 排序 列 的 查找 。 图 6-18 展 
示 的 是 为 关系 CUSTOMER 中 的 CustName 建立 索引 的 例子 。 在 数据 库 系 统 中 ， 索 引 可 以 通 
过 只 包含 两 列 的 附加 表 来 实现 。 其 中 一 列 包含 索引 列 排 好 序 的 值 ， 男 一 列 包 含 指 向 原始 表 中 
对 应 记录 的 指针 。 在 本 例 中 ， 索 引 表 CUSTNAME INDEX 中 一 列 为 已 排 好 序 的 CustName 


值 ， 另 一 列 为 指向 CUSTOMER 表 对 应 记录 


CUSTNAME INDEX 





的 指针 。 
CUSTOMER 


ovato | overelan 


Adam 60555 
1008 |Steve |60222- 
er 


Ema |60111 | 


图 6-18 一 个 索引 的 例子 


现在 来 看 看 索引 是 如 何 加 快 查找 速度 的 。 图 6-16 所 示 的 例子 展示 了 如 何 查 找 CustName 
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为 Steve 的 记录 ， 可 见 使 用 线性 查找 需要 9 个 步骤 。 而 图 6-19 展示 的 是 对 同一 查找 在 表 
CUSTNAME INDEX 中 使 用 二 分 法 的 版 本 。 因 为 CustName 在 索引 表 中 是 排 好 序 的 ， 故 可 
以 使 用 二 分 查找 法 。 在 这 个 例子 中 ， 在 索引 表 中 查找 到 CustName 为 Steve 需要 3 步 。 一 旦 
在 索引 表 中 找到 CustName 为 Steve 的 记录 ， 其 指针 的 值 就 对 应 指向 CUSTOMER 表 中 的 相 
应 记录 ， 从 而 完成 查找 . 


Re 步骤 1 消去 在 这 之 上 的 记录 (由 于 CUSTOMER 
之 前 ) 1 
Ana [1001 || 。 卢杰? 消去 在 这 之 上 的 记录 (由 于 | _1001_|Ana |60333 


008 | pe 的 时 顺序 人 EStuve | 1002 [wat |60922 | 
Ema 1010 之 前 ) 


Fona |ioa | 04 |Pam e0444 | 
tam ”|1003 ||。 步 蝇 3 在 索引 记录 中 找到 名 字 
Fam ioo 
ER 步骤 4 由 索引 记录 的 指针 ， 找 到 


关 系 CUSTOMER 中 要 查 60111 
E 


图 6-19 一 个 使 用 索引 加 快 查找 速度 的 例子 
现在 来 考察 另 一 个 例子 ， 同 样 用 于 演示 如 何 使 用 索引 提高 查找 效率 . 假设 用 户 需 要 从 
CUSTOMER 表 中 找到 有 多 少 条 记录 的 CustName 为 Pam (再 次 提醒 ， 关 系 CUSTOMER 中 
CustName 列 未 排序 ) - 
首先 查看 图 6-20 所 示 的 情况 ， 它 展示 的 是 不 使 用 索引 的 情况 下 ， 在 关系 CUSTOMER 
[1190| ( 见 图 6-15 ) 中 查找 是 如 何 执 行 的 . 











CUSTOMER 





CustID | CustName Zip 


aa [zach 60111 | 
11001 | Ana 60333 
1002 | Man 160222 
008 [taa |60555 | 
1004 |Pam [60444 
005 |say |60555 
1006 |Bob |60333 
1007 [Adam |60555 | 
1011 Peer [60686 


图 6-20 男 一 个 二 分 查找 的 例子 
因为 CustName 列 并 未 排序 ， 所 以 不 得 不 线性 地 查找 关系 CUSTOMER 中 的 每 一 条 


步 又 1 (不 是 Pam, counter=0) 
步骤 2 (不 是 Pam, counter=0) 
步骤 3 (不 是 Pam, counter=0 ) 
步骤 4 (不 是 Pam, counter=0 ) 
步骤 5 (Pam, counter= 1 ) 

步骤 6 (不 是 Pam, counter= 1 ) 
步骤 7 (不 是 Pam, counter= 1 ) 
步骤 8 (不 是 Pam, counter= 1 ) 
步骤 9 (不 是 Pam, counter = 1 ) 
步骤 10 (Pam, counter=2 ) 

步骤 11 (不 是 Pam, counter = 2 ) 
步骤 12 (不 是 Pam, counter = 2 ) 
步骤 13 (不 是 Pam, counter = 2 ) 
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记录 。 用 计数 器 counter 统计 客户 名 字 Pam 出 现 的 次 数 ， 初 始 值 设 为 0， 核查 每 一 记录 
时 ， 若 其 CustName 不 为 Pam， 则 计数 器 值 不 变 ; 若 CustName 为 Pam， 则 计数 器 值 加 1。 
CustName 为 Pam 可 以 出 现在 任何 一 条 记录 中 ， 因 此 必须 核查 关系 中 的 每 一 条 记录 ， 故 这 种 
查找 方法 的 步骤 数 为 关系 表 中 记录 的 总 数 。 在 本 例 中 ， 需 要 13 步 来 找到 结果 ， 因 为 有 13 条 
记录 : 

现在 来 看 看 如 何 利 用 索引 加 快 查找 速度 。 图 6-21 展示 了 使 用 图 6-19 所 示 CUSTNAME 
INDEX 索引 表 来 实现 本 次 查找 的 版 本 。 因 为 索引 表 中 CustName 已 排 好 序 ， 所 以 可 以 使 用 
二 分 查找 法 来 找到 特定 的 客户 姓名 - 在 这 种 情况 下 ， 从 索引 表 中 找到 CustName 为 Pam 需要 
3 步 。 虽 然 需 要 额外 的 步骤 来 统计 CustName 为 Pam 的 所 有 记录 并 核实 是 否 所 有 CustName 
为 Pam 的 记录 都 被 统计 到 ， 但 总 计 所 需 的 步骤 数 仍 然 少 于 未 使 用 索引 的 步骤 数 。 待 查找 文 
件 越 庞 大 ， 查 找 步 又 数 上 的 优势 会 越 显 著 ， 因 为 线性 查找 方法 需要 遍历 表 中 的 每 一 条 记录 ， 
而 使 用 索引 的 查找 仅 需 要 搜索 部 分 记录 。 

CUSTNAME INDEX 

CustName | CustID 


Ara 






步骤 1 消去 在 这 之 上 的 记录 
(由 于 Matt 的 字母 顺序 在 Pam 之 前 ) 
步骤 6 检查 上 方 记录 中 的 名 字 (不 是 Pam，final count= 2 ) 


步骤 3 找到 名 字 Pam 的 一 个 实例 (counter = 1 ) 
步骤 4 检查 下 方 记录 中 的 名 字 (不 是 Pam，counter=1) 


步骤 5 检查 上 方 记录 中 的 名 字 (Pam，counter =2) 
步骤 2 消去 在 这 之 下 的 记录 

(由 于 Peter 的 字母 顺序 在 Pam 之 后 ) 
图 6-21 为 一 个 使 用 案 引 加 快 查找 速度 的 例子 


以 上 所 有 例子 都 是 为 了 说 明 一 种 简单 的 机 制 可 以 用 来 加 快 查找 和 检索 的 速度 。 但 需 注 
意 ， 这 些 例子 只 是 对 索引 原则 的 一 种 简单 说 明 。 为 便于 演示 ， 所 有 例子 中 都 是 将 关系 的 主 码 
作为 索引 的 指针 。 在 实际 情况 下 ， 索 引 中 指针 的 值 可 以 是 记录 在 硬盘 上 的 物理 地 址 或 者 其 他 
记录 物理 地 址 的 相关 机 制 ， 同样 ， 除 了 示例 中 的 索引 列 简单 排序 以 及 二 分 查找 法 之 外 ， 还 可 
使 用 其 他 不 同 逻 辑 与 技术 方案 的 DBMS 工具 来 实现 索引 ， 如 集群 索引 、 散 列 索 引 、B+ 树 等 。 
这 些 方案 都 超出 了 本 书 的 范畴 ， 对 本 书 读者 来 说 ， 重 要 的 是 知道 所 有 方案 都 有 一 个 共同 目 
标 : 通过 建立 索引 来 加 快 查找 和 检索 的 速度 。 需 要 特别 注意 的 是 无论 DBMS 系统 使 用 哪 
种 逻辑 和 技术 方案 来 实现 索引 ， 当 索引 被 创建 之 后 ， 对 于 终端 用 户 来 说 ， 它 都 能 以 无 颖 的 形 
式 提 高 查找 和 检索 数据 的 效率 。 

为 关系 表 中 的 某 一 列 创 建 索 引 是 很 简单 的 ， 涉 及 书写 CREATE INDEX 的 SQL 语句 如 下 : 


CREATE INDEX custname index ON customer ICcustname) ; 
一 旦 这 条 语句 被 执行 ， 就 意味 着 在 关系 CUSTOMER 中 涉及 CustName 列 的 查找 和 检索 将 会 
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值得 注意 的 有 是， 索引 在 加 快 查找 和 检索 的 同时 也 带 来 了 更 多 的 成 本 。 一 旦 使 用 索引 ， 数 
据 库 就 需要 添加 额外 的 空间 ， 因 为 需要 为 每 一 索引 创建 额外 的 表 。 同 时 ， 插入、 删除、 修改 
原始 表 中 的 记录 将 会 消耗 更 多 的 时 间 ， 因 为 这 同时 伴随 着 对 索引 表 的 插 和 入、 修改、 删除 以 及 
重 排序 。 因 此 ， 对 数据 库 添 加 索引 需要 同时 考虑 其 优势 和 成 本 。 典 型 的 情况 是 ， 对 大 型 表 中 
常 被 许多 用 户 查 找 或 检索 的 列 建 立 索 引 。 如 果 已 有 的 索引 无 用 ， 可 以 使 用 DROP INDEX 语 
句 来 删除 索引 ， 如 下 所 示 : 


DROP INDEX custname index 


这 条 语句 删除 了 索引 ， 该 索引 将 不 再 可 用 。 


6.5 ”数据库 前 端 


在 多 数 情况 下 ， 一 些 打 算 使 用 数据 库 的 用 户 (通常 是 大 多 数 用 户 ) 都 缺乏 时 间或 经 验 来 
直接 使 用 数据 库 中 的 数据 。 因 此 ， 期 望 每 一 个 用 户 都 能 上 自己 编写 查询 或 其 他 语句 来 实现 数 
据 库 中 的 数据 操作 是 不 现实 的 。 大 多 数 的 数据 库 终端 用 户 访问 数据 库 是 通过 前 端 应 用 来 实现 
的 。 数 据 库 前 端 ( database front-end) 应 用 可 以 包含 多 种 不 同 的 组 件 ， 本 节 将 介绍 几 种 常见 
的 数据 库 前 端 组 件 。 

表格 ( form) 是 一 种 数据 库 前 端 组 件 ， 它 使 得 终端 用 户 无 需 经 过 训练 便 可 直接 输入 、 
检索 数据 。 表 格 提 供 了 进入 数据 库 表 或 查询 的 接口 。 图 6-22 所 示 为 向 图 6-15 所 示 关 系 
CUSTOMER 输入 数据 的 表格 形式 接口 。 


输入 客户 数据 


ome | 
[ome] [| 
Cg] 


图 6-22 一 -个 用 于 向 关系 CUSTOMER 输入 数据 的 表格 的 例子 
每 当 用 户 向 表格 中 输入 一 个 值 时 ，SQL 语句 


INSERT INTO customer VALUES (...) 
会 在 用 户 行为 之 后 被 执行 。 这 当然 比 每 次 插入 一 条 记录 时 都 人 工 书写 INSERT INTO 语句 
方便 得 多 。 表 格 也 可 以 用 来 删除 和 修改 记录 。 当 终端 用 户 使 用 表格 删除 或 修改 记录 时 (如 
图 6-23 所 示 )， 相 应 的 SQL 语句 (DELETE 或 UPDATE) 就 会 在 用 户 行为 之 后 执行 。 

比如 ， 用 户 选 中 图 6-23 所 示 表 格 中 的 最 后 一 条 记录 ， 并 在 键盘 上 按 下 Delete 键 ， 如 下 
语句 就 会 被 生成 和 执行 : 


DELETE FROM customer 
WHERE custid = '1012'.， 


如 果 用 户 将 图 6-23 所 示 的 第 一 条 记录 的 客户 名 从 Zach 修改 为 Zachary， 并 在 键盘 上 按 下 回 
车 键 ， 如 下 语句 就 会 被 生成 和 执行 : 


UPDATE customer 
SET custname = 'Zachary' 
WHERE custid = '1000: | 
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客户 
删除 记录 : 选中 记录 ， 按 下 键盘 的 Delete 键 
更 改 记 录 : 更 改 任意 一 行 的 任意 值 ， 按 下 键盘 的 回 车 键 





图 6-23 一 个 用 于 更 新 关系 CUSTOMER 中 数据 的 表格 的 例子 


表格 还 可 以 用 来 实现 用 户 与 数据 库 中 其 他 类 型 数据 的 交互 。 图 6-24 所 示 即 为 表格 用 于 查找 
和 检索 的 例子 。 


客户 搜索 表 
通过 Customer ID、Customer Name 和 Zip Code 搜索 客户 
输入 搜索 值 ， 然 后 单 击 SEARCH 按钮 


Cam 
[Games | 
pC] |] 


图 6-24 一 个 用 于 在 关系 CUSTOMER 中 搜索 数据 的 表格 的 例子 


当 癌 Customer Name 编辑 框 中 输入 数据 并 单 击 SEARCH 按钮 时 ， 就 会 为 用 户 生 成 一 条 
SQL 语句 。 假 设 用 户 向 Zip Code 编辑 框 中 输入 60555， 并 单 击 SEARCH 按钮， 以 下 查询 将 [153 
被 生成 和 执行 : 


SELECT 
FROM Customer 
WHERE 22D = "60555"'3 










查询 结果 将 会 以 表格 形式 返回 ， 如 图 6-25 所 示 。 搜索 结果 
注意 ， 以 上 的 简单 例子 只 是 对 表格 基础 功能 的 简要 [Cstomer ID | Customer N 
演示 。 数 据 库 前 端 应 用 可 以 包含 复杂 的 表格 形式 ， 能 够 Er 下 入 
结合 多 种 功能 同时 从 多 张 表 中 检索 数据 。 | 1005 | Saly |6o555| 
报表 (report) 也 是 一 种 数据 库 前 端 应 用 的 组 件 ， 其 1007 | Adam |60555| 


作用 是 以 某 种 格式 化 的 形式 呈现 数据 以 及 对 来 自 一 张 或 ”图 6-25 使 用 图 6-24 中 的 表格 进行 
多 张 表 的 数据 进行 计算 。 表 格 的 目的 是 便于 终端 用 户 和 搜索 返回 的 结果 表 
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数据 库 之 间 进 行 交 互 ， 如 允许 用 户 进行 更 新 与 检索 操作 ， 而 报表 检索 的 数据 则 是 格式 化 的 、 


经 专业 排版 的 ， 以 便于 浏览 ， 可 在 显示 器 上 显示 或 者 打印 出 来 。 


图 6-26 所 示 是 关系 CUSTOMER 的 一 个 报表 ， 其 中 记录 根据 Zip i 


报表 : 根据 Zip 进行 分 组 和 汇总 

















进行 分 组 和 汇总 。 


Zip Customer ID Customer Name 
60111 1000 Zach 
1010 Emma 
Zip 为 60111 的 客户 总 数 : 
60222 1002 Matt 
1008 Steve 
Zip 为 60222 的 客户 总 数 : 
60333 1001 Ana 
1006 Bob 
1009 Pam 
Zip 为 60333 的 客户 总 数 : 
60444 1004 Pam 
1012 Fiona 
Zip 为 60444 的 客户 总 数 : 
60555 1003 Lara 
1005 Sally 
1007 Adam 
Zip 为 60555 的 客户 总 数 : 3 
60666 1011 Peter 





Zip 为 60666 的 客户 总 数 : 1 








所 有 Zip 中 的 客户 总 数 : 13 
图 6-26 一 个 来 自 关系 CUSTOMER 的 报表 的 例子 


和 表格 的 情况 一 样 ， 数 据 库 前 端 应 
同类 型 的 计算 以 及 从 多 张 表 中 检索 数据 。 


用 也 可 以 包含 复杂 的 报表 。 


这 些 报表 可 以 结合 多 种 不 


作为 表格 和 报表 的 补充 ， 数 据 库 前 端 应 用 还 包含 多 种 其 他 组 件 ， 如 菜单 、 图 表 、 图 片 、 示 


意图 。 如 何 选 择 和 使 用 不 同 的 组 件 将 根据 终 冰 用 户 的 需求 而 定 。 
一 个 数据 库 可 以 有 多 个 前 端 应 用 用 于 不 同 的 目的 或 者 用 

户 。 这 些 前 端 应 用 可 以 分 别 独立 地 访问 ， 如 图 6-27 所 示 ， 并 允 
许 用 户 通过 接口 根据 月 己 的 需求 来 选择 应 用 

例如 ， 如 果 用 户 选择 了 “客户 管理 ”选项 ， 
图 6-28 所 示 的 应 用 。 

现在 ， 用 户 可 以 利用 多 种 不 同 的 前 端 组 件 访问 客户 相关 数 
据 。 比 如 ， 如 果 用 户 选 择 “ 搜 索 客户 ”选项 ， 就 会 出 现 图 6-24 
所 示 的 表格 ; 如 果 用 户 选 择 “ 按 Zip 列 出 所 有 客户 ”， 则 会 出 现 
图 6-26 所 示 的 报表 。 


就 会 出 现 如 


欢迎 来 到 应 用 中 心 
( 单 击 您 想 要 使 用 的 应 用 ) 








图 6-27 “一 个 数据 库 前 端 应 
程序 集合 界面 的 例子 
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客户 管理 
(选择 下 面 的 选项 ) 


更 改 和 删除 客户 列 出 所 有 客户 
客户 统计 信息 按 Zip 列 出 所 有 客户 


图 6-28 ”一 个 数据 库 前 端 应 用 程序 界面 的 例子 


一 个 实际 应 用 中 可 以 包含 大 量 精 心 设计 的 表格 、 图 表 或 其 他 前 端 组 件 ， 并 以 复 沫 的 方式 
组 合 。 例 如 ， 在 初始 菜单 上 选择 某 一 项 后 连接 到 田 一 个 包含 多 个 选择 列表 的 菜单 。 

现 有 和 多数 DBMS 包 都 带 有 用 于 创建 数据 库 前 端 接口 的 功能 或 者 附加 软件 。 当 然 ， 一些 
特定 的 第 三 方 软件 工具 也 可 用 来 创建 实现 数据 库 数据 访问 的 前 端 组 件 。 男 外 ,还 可 以 利用 编 
程 语 言 编 写 代码 来 实现 前 端 组 件 ， 

数据 库 前 端 接口 也 可 以 是 基于 Web 的 ， 此 时 ， 终 端 用 户 需 要 使 用 Web 浏览 器 来 连接 数 
据 库 。 许多 Web 网 站 都 有 连接 数据 库 的 接口 。 在 这 种 情况 下 ，Web 网 页 的 内 容 是 从 数据 库 
中 提取 数据 并 生成 的 ， 如 图 6-29 所 示 为 Web 零售 商 的 某 一 特定 网 页 。 
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图 6-29 一 个 网 页 的 例子 


图 6-30 展示 的 是 相应 的 关系 表 ， 用 来 存储 显示 在 网 页 上 的 婴儿 玩具 信息 。 换 句 话说 ， 
图 6-29 所 示 网 页 的 中 间 界 面 即 为 图 6-30 所 示 关 系数 据 库 的 前 端 。 

数据 库 关 系 表 的 集合 如 图 6-30 所 示 ， 它 提供 了 一 种 结构 化 且 非 元 余 的 方式 来 存储 呈现 在 
整个 网 站 上 的 所 有 数据 的 方法 。 例 如 ， 对 一 个 ProductID 值 为 1 的 产品 来 说 ， 其 ProductName 
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为 Rainbow Baby Violet 的 产品 可 以 出 现在 零售 网 站 的 多 个 网 页 。 将 产品 名 从 Rainbow 
Baby Violet 修改 为 Rainbow Baby Purple 时 ， 只 需要 执行 一 次 更 新 操作 ， 数 据 库 中 新 的 
ProductName 版 本 将 会 覆盖 旧 的 版 本 ， 其 结果 是 ， 更 新 的 版 本 自动 传播 到 所 有 网 页 ， 并 使 用 


新 的 ProductName。 
ProductiD | ProductName price 


Ranbow BabyVioer |$1600| PienreT.on 
Pierre gr 
Pctre3 gj 
4 Ranbow Baby gn Green | $16.00 | Pierea gn 
Pictwe5 gn 
[Msca MbaOw |$2200|Pictreegn 
9 [wivab Musical Grane |$46.00 [Protrae gn 
FS 
7 


| 
i 
图 6-30 ”存储 图 6-29 中 网 站 内 容 的 数据 库 关 系 表 





















6.6 ”数据 质量 问题 


在 使 用 数据 的 过 程 中 ， 需 要 始终 重视 数据 质量 ( data quality) 问题 。 如 果 设 计 的 数据 库 
所 代表 的 内 容 能 够 准确 、 清 晰 地 反映 真实 世界 ， 则 其 数据 即 为 高 质量 的 。 有 多 种 不 同 的 定义 
数据 质量 的 数据 属性 ， 最 基本 的 数据 质量 特征 包括 : 
e 准确 性 (accuracy ) 。 
“。 了 唯一 性 (uniqueness)。 
完整 性 (completeness ) 。 


及 时 性 (timeliness ) 。 
统一 性 (conformity ) 。 
数据 的 准确 性 关系 到 该 数据 刻画 真实 实例 的 正确 程度 。 比 如 ， 数 据 库 中 客户 的 姓名 拼写 
错误 ， 这 样 的 数据 即 存在 准确 性 数据 质量 问题 ， 纠 正 拼 写 可 以 解决 这 类 问题 。 
数据 的 唯一 性 要 求 每 一 真实 实例 在 数据 收集 时 只 能 被 描述 一 次 。 唯 一 性 数据 质量 问题 有 
时 也 称 为 数据 重复 ( data duplication)。 例 如 ， 如 果 关 系 表 中 有 两 条 记录 包含 的 数据 为 同一 
客户 的 信息 ， 就 会 出 现 唯 一 性 数据 质量 问题 。 解 决 唯一 性 问题 首先 需 识别 出 这 两 条 相同 的 记 
录 ， 然 后 删除 其 中 一 条 或 者 将 二 者 合并 为 一 条 记录 。 
数据 的 完整 性 关系 到 在 进行 数据 收集 时 需求 数据 被 描述 的 完整 程度 。 例 如 ， 如 果 包 含 病 
人 数据 的 关系 表 中 ， 病 人 的 体重 信息 是 缺失 的 ， 这 种 朴 忽 即 为 数据 完整 性 问题 。 每 位 病人 都 
有 体重 ， 没 有 体重 的 病人 记录 即 为 不 完整 的 。 另 一 方面 ， 保 险 单 号 的 缺失 则 不 一 定 是 数据 完 
整 性 问题 。 如 果 病 人 没有 参 保 ， 保 险 单 号 的 缺失 是 真实 情况 的 正确 反映 ; 然而 ， 在 病人 参 保 
了 ， 保 险 单 号 缺失 即 为 完整 性 数据 质量 问题 。 
数据 的 一 致 性 是 指数 据 恰 当地 符合 及 匹配 其 他 数据 的 程度 。 例 如 ， 某 机 构 可 能 有 两 种 不 
同 的 关于 公司 整体 利润 信息 的 来 源 。 如 果 这 两 种 来 源 指向 不 同 的 利润 金额 ， 则 这 两 个 金额 互 


多 
e 一 致 性 (consistency ) 。 
名 
Ee 
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不 一 致 。 

在 数据 集中 ， 一 致 性 数据 质量 问题 是 由 其 他 数据 质量 问题 引起 的 ， 如 准确 性 或 唯一 性 数 
据 质量 问题 。 例 如 ， 考 察 某 警 察 局 雇用 了 50 名 男 警 务 人 员 和 50 名 女 警 务 人 员 的 场景 。 根 据 
人 员 情 况 ， 该 警察 局 定制 了 男女 制服 各 50 套 。 假 设 100 名 警 务 人 员 的 所 有 相关 信息 (包括 
性 别 ) 都 输入 到 一 张 关系 表 中 ， 同 时 假设 其 中 有 一 条 记录 的 性 别 信息 输入 错误 ， 将 一 名 男 警 
务 人 员 的 性 别 信息 错误 地 设 为 “ 女 ”。 这 条 特定 的 记录 就 存在 准确 性 数据 质量 问题 。 使 用 标 
准 的 公式 统计 男女 警 务 人 员 总 数 的 结果 将 会 得 到 49 名 男性 ，51 名 女性 。 但 是 ， 定 制 制服 的 
信息 显示 为 男女 警 务 人 员 各 50 名 。 这 两 组 数据 即 为 不 一 致 的 。 注 意 ， 通 过 将 错误 输入 “ 女 ” 
修改 为 “ 男 ”"， 纠 正 淮 确 性 错误 之 后 ， 也 就 自动 解决 了 一 致 性 问题 。 纠 正 后 使 用 标准 的 公式 
统计 男女 警 务 人 员 总 数 的 结果 为 男女 各 50 名 ， 这 就 和 定制 制服 时 的 数字 保持 一 致 了 。 

当 正 确 的 数据 出 现在 错误 的 位 置 时 ， 也 会 出 现 一 致 性 数据 质量 问题 。 例 如 ， 一 张 包含 住 
院 病人 信息 的 表 中 ， 可 能 有 一 条 记录 真实 、 正 确 地 反 喘 了 某 门诊 病人 的 信息 (如 姓名 、 出 生 
日 期 、 性 别 等 )。 这 条 记录 的 内 容 在 准确 性 的 范围 内 ， 因 为 其 准确 地 反映 了 真实 的 病人 信息 。 
但 是 ， 这 条 记录 错误 地 出 现在 住院 病人 信息 表 中 ， 这 可 能 会 导致 医院 床位 数据 的 不 一 致 。 将 
该 记录 从 住院 病人 信息 表 移 至 门诊 病人 信息 表 即 可 解决 这 个 问题 。 

数据 的 及 时 性 关系 到 数据 与 其 所 表达 的 真实 世界 在 时 间 维 度 上 的 相符 程度 。 通 常 ， 及 时 
性 关系 到 数据 的 “新 鲜 ” 程 度 。 如 果 数 据 是 来 自用 户 当 前 工作 的 及 时 数据 ， 则 不 会 存在 及 时 
性 问题 。 反 之 ， 如 果 数 据 未 得 到 及 时 有 效 的 更 新 ， 则 会 存在 及 时 性 问题 。 例 如 ， 考 察 下 面 这 
种 情况 ， 某 货运 公司 运 出 了 一 批 货物 ,但 是 这 条 记录 直到 3 天 以 后 才 输 入 到 DELIVERED _ 
CARGO_SHIPMENTS 表 中 。 在 这 3 天 的 时 间 内 ，DELIVERED_ CARGO_SHIPMENTS 表 即 
存在 及 时 性 数据 质量 问题 。 解 决 这 一 问题 的 办 法 是 要 求 数据 输入 人 员 在 货物 运 出 之 后 及 时 地 
将 相关 信息 输入 到 数据 库 表 中 。 

数据 的 统一 性 是 指数 据 符合 某 种 特定 格式 的 程度 。 当 某 数据 实例 不 符合 预先 定义 的 格式 
时 ， 统 一 性 数据 质量 问题 即 会 出 现 。 例 如 ， 假 设 银行 事务 中 涉及 美元 交易 事务 存储 时 ， 需 
按 规定 在 金额 的 前 面 加 上 标识 符 $。 如 果菜 银行 处 理 美元 交易 事务 存储 时 将 标识 符 $ 加 在 了 
金额 的 后 面 ， 则 这 些 记录 即 存在 统一 性 数据 质量 问题 。 解 决 这 一 问题 的 方法 是 将 所 有 标识 符 
$ 放 在 金额 的 前 面 。 

为 进一步 演示 准确 性 、 唯 一 性 、 完 整 性 、 一 致 性 、 及 时 性 、 统 一 性 问题 ， 考 察 如 下 
例子 。 假 设 Albritco 公司 需 记 录 其 经 理 的 数据 。Albritco 公司 现 有 5 名 经 理 : 2 名 销售 经 
理 (Lilly 和 Carlos)、3 名 财务 经 理 (Emma、Robert 和 Vijay)。 最 近 新 招聘 1 名 销售 经 理 
( Scarlett)。 这 一 做 法 符合 该 公司 在 战略 上 的 部 署 ， 即 销售 经 理 和 财务 经 理 的 数目 相等 。 在 招 
聘 了 1 名 新 的 销售 经 理 之 后 ， 如 图 6-31 所 示 的 消息 被 发 送 给 了 董事 会 主席 。 

致 ，Albritco 董事 会 主席 


主题 : 实现 战略 规划 目标 (机密 ) 
我 们 很 荣幸 地 报告 ， 销 售 经 理 和 财务 经 理 数 目 相 同 的 战略 目标 已 经 达成 ， 见 下 表 : 


经 理 人 数 一 致 : 目标 达成 


图 6-31 Albritco 公司 经 理 人 数 的 报表 消息 
这 条 消息 是 由 招聘 主管 起 草 的 ， 他 知道 之 前 的 负责 人 统计 的 数据 为 2 名 销售 经 理 、3 名 
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财务 经 理 ， 以 及 该 公司 刚刚 新 招 了 1 名 销售 经 
图 6-32 展示 的 是 数据 库 中 存储 该 公司 i 息 的 关系 表 。 为 便于 讨论 ， 该 关系 表 


中 设置 了 多 种 数据 质量 问题 。 
准确 性 问题 完整 性 问题 


ey sae vores | 7 liebeocon 
22 |EmuY |Fnancial Manager| June 01. 1966 
333 |Robert | Financial Manager De 25, 1973 ober jbo com 

地 一 了 唯一 性 问题 
i334 |Bob | Financial Manager | December 25, 1973 | robert@albritco.com 
444 | Caros | Sales Manager caros@albnico com 
555 |Viay | Financial Manager/ October 04, 1981 | vijay@albritco.com 


统一 性 问题 ( 表 中 没有 经 理 Scarlett) < 一 及 时 性 问题 
图 6-32 一 个 有 数据 质量 问题 的 数据 库 关 系 表 


第 一 条 记录 中 ， 经理 Lilly 的 生日 信息 缺失 。 虽 然 经 理 Lilly 有 生日 信息 ,但 并 没有 输入 
到 该 记录 中 。 这 种 疏忽 即 为 完整 性 问题 的 例子 。 

第 二 条 记录 中 ， 经理 Emma 的 名 字 错 误 拼 写 为 Emu， 导 致 准确 性 问题 。 

第 三 条 、 第 四 条 记录 同时 对 应 同一 个 人 。 在 数据 输入 的 过 程 中 出 现 了 错误 ， 将 同一 
的 信息 录入 了 两 次 ， 并 赋予 了 两 个 不 同 的 ManagerID 值 : 一 个 为 其 真实 姓名 ， 另 一 个 为 昵 
称 。 这 两 条 记录 指 癌 同一 个 人 人， 导致 唯一 性 问题 。 

第 五 条 记录 中 经 理 Carlos 生日 信息 的 录入 格式 导致 统一 性 问题 。 所 有 生日 信息 的 录入 
格式 为 : /月 份 名 称 /2 位 日 期 /4 位 年 份 /。 但 是 经 理 Carlos 的 生日 信息 录入 格式 为 : /1 或 2 







位 日 期 /1 或 2 位 月 份 /2 位 年 份 /。 


新 招 的 经 理 Scarlett 已 经 在 Albritco 公司 上 班 ,， 但 是 她 的 信息 并 没有 录入 到 数据 库 的 关 
系 表 内 ， 因 为 信息 录 作 人 员 正 在 度假 。 直 到 经 理 Scarlett 的 信息 录 人 之前， 该 关系 表 中 的 经 


理 数据 都 存在 及 时 性 问题 。 
为 阐明 一 致 性 问题 ， 考 虑 图 6-33 所 示 的 报表 ， 它 是 基于 图 6-32 中 的 关系 的 。 
报表 : 经 理 
Title Manager ID Manager Name 
销售 经 理 111 Lilly 
444 Carlos 


销售 经 理 总 数 : 2 员 





财务 经 理 Emu 
Robert 
Bob 
Vijay 
一 致 性 问题 


图 6-33 一 -个 基于 图 6-32 中 关系 的 报表 
报表 中 的 计算 是 基于 正确 的 数学 公式 来 统计 Title 为 销售 经 理 以 及 Title 为 财务 经 理 的 
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记录 总 数 。 对 销售 经 理 的 统计 将 会 出 现 少 统计 的 现象 ， 因 为 存在 及 时 性 问题 ， 经 理 Scarlett 
的 信息 未 录入 。 而 对 财务 经 理 的 统计 将 会 出 现 多 统计 的 现象 ， 因 为 存在 唯一 性 问题 ， 记 录 
Robert 的 信息 被 录入 了 两 次 。 这 次 统计 数据 ( 2 名 销售 经 理 以 及 4 名 财务 经 理 ) 与 图 6-31 所 
示 的 信息 (3 名 销售 经 理 以 及 3 名 财务 经 理 ) 之 间 存 在 一 致 性 问题 。 

本 例 所 描述 的 数据 质量 问题 可 以 通过 预防 措施 和 纠正 措施 来 规避 。 

排除 数据 质量 问题 的 数据 质量 预防 措施 (preventive data quality action ) 包括 : 

e 为 数据 录 和 人员 提供 适当 的 专业 培训 和 激励 。 

e 规定 适当 的 数据 录 和 时间。 如 规定 及 时 输入 数据 以 避免 及 时 性 问题 。 

e 制定 用 户 自 定 义 约 束 和 机 制 . 如 实现 某 种 数据 库 用 户 目 定义 规则 来 限制 日 期 数据 的 

插入 ， 要 求 插 入 日 期 在 合适 的 范围 内 或 实现 了 某 种 特定 的 机 制 (如 输入 掩 码 )， 以 确 
保 正确 的 格式 。 

如 果 数 据 质量 问题 已 经 存在 ， 则 可 以 执行 以 下 数据 质量 校正 措施 (corrective data quality 
action ): 

e 检测 和 确认 数据 已 有 数据 质量 问题 。 

e 使 用 特定 的 软件 和 标准 查找 数据 库 来 识别 和 校正 特定 的 数据 质量 问题 . 

对 于 图 6-32 所 示 的 情况 来 说 ,Albritco 公司 可 以 通过 执行 以 下 操作 来 解决 数据 质量 问题 。 

e DateOfBirth 可 以 声明 为 强制 列 (如 在 CREATE TABLE 语句 中 使 用 NOT NULL 子 

句 )， 这 就 可 以 规避 第 一 条 记录 所 示 的 完整 性 问题 。 

e 在 Name 列 输入 数据 时 ， 检 查 和 核对 标准 姓名 的 数据 库 (如 美国 常用 的 10 000 个 人 
名 )， 标 记 不 常见 的 输入 以 便 进 一 步 查 证 。 该 操作 将 会 在 第 二 条 记录 输入 Emu 时 标 
记 记 录 列 表 以 便 进一步 查证 .查证 方式 包括 搜索 此 人 的 其 他 已 有 信息 ， 进 而 确认 该 
人 的 真实 名 字 为 Emma: 这 些 操作 可 以 提示 我 们 将 关系 中 的 姓名 从 Emu 改 为 Emma， 
从 而 解决 了 准确 性 问题 . 

E-mail 列 在 CREATE TABLE 语句 中 应 声明 为 唯一 列 ， 因 为 其 实际 上 为 候选 码 。 这 就 
可 以 防止 第 四 条 记录 的 生成 ， 从 而 保留 第 三 条 记录 作为 有 问题 的 经 理 信 息 的 唯一 信 
息 记 录 ， 也 因此 规避 了 唯一 性 问题 。 

生日 信息 的 输入 格式 可 以 作为 一 种 机 制 统一 指定 为 /月 份 名 称 /2 位 日 期 /4 位 年 份 /， 
以 此 规避 如 第 五 条 记录 所 示 的 数据 统一 性 问题 。 

制定 并 强制 执行 管理 规则 ， 要 求 每 一 位 新 经 理 的 信息 在 其 被 招聘 时 就 必须 录入 到 数 
据 库 中 ， 这 就 可 以 消除 经 理 Scarlett 已 经 在 公司 上 班 但 其 信息 仍 未 录 人 数据 库 所 造成 
的 及 时 性 问题 ， 

对 于 图 6-33 所 示 的 报表 显示 的 一 致 性 问题 ， 可 以 通过 上 述 操作 校正 图 6-32 所 示 的 唯 
一 性 和 及 时 性 问题 来 解决 ， 不 需要 额外 的 特定 操作 来 解决 这 些 特 殊 的 一 致 性 问题 。 

图 6-34 所 示 为 图 6-32 所 示 数 据 质量 问题 解决 之 后 的 表 - 

图 6-35 所 示 为 基于 图 6-34 所 示 数 据 生 成 的 报表 。 现 在 一 致 性 问题 已 解决 ， 这 个 报表 显 
示 有 3 名 销售 经 理 和 3 名 财务 经 理 ， 与 图 6-31 保持 一 致 且 数据 正确 。 

高 质量 的 数据 对 于 数据 库 的 合理 使 用 至 关 重 要 。 低 质量 数据 造成 的 后 果 可 能 非常 糟糕 ， 
因为 低 质量 的 数据 可 能 导致 错误 决策 ， 错 误 的 顾客 统计 、 不 准确 的 金融 资产 信息 、 缺 失 的 病 
人 诊断 信息 等 现象 ， 不 但 没有 一 点 好 处 ， 而 且 必 然 会 带 来 负面 影响 。 因 此 ， 建 立 规则 以 确保 
数据 质量 十 分 必要 。 
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Dy |Saies Manager |May21,1971 
222 |Emma |Financial Manager| June 01 1966 
December 25, 1973 
444 |Carlos | Sales Manager Apnl 13, 1968 carlos@albrtco.com 















Financial Manager | October 04, 1981 |vijay@albntco.com 
Juy 17 1984 scarlett@albritco.com 


图 6-34 图 6-32 中 的 数据 库 关 系 表 在 解决 数据 质量 问题 后 的 结果 





报表 : 经 理 
Titie Manager ID Manager Name 
销售 经 理 111 Lilly 
444 Carios 
666 Scarlett 
销售 经 理 总 数 : 3 
财务 经 理 222 Emma 
333 Robert 
555 Vijay 


图 6-35 一 个 基于 图 6-34 中 关系 的 报表 


本 草 已 经 从 数据 库 设 计 者 和 用 户 的 角度 介绍 了 关于 数据 库 实现 和 使 用 的 大 部 分 基本 问 
[201| 题 。 下 一 节 将 介绍 关于 断言 和 触发 器 的 附加 信息 。 
6.7 ”问题 说 明 : 断言 和 触发 器 


断言 ( assertion) 是 用 于 指定 用 户 目 定 义 约 束 的 一 种 机 制 。 为 便于 演示 和 描述 这 种 机 制 ， 
我 们 将 使 用 图 6-36 所 示 的 例子 。 


ER 图 







StudentName 






得 到 的 关系 模式 
STUDENT PROFESSOR 


StudentIiD ProfIiD 
StudentName ProfLname 


AdvisoriD (Fx) 


图 6-36 每 个 教授 最 多 只 能 指导 10 个 学 生 


在 此 例 中 ， 用 户 自 定义 约束 规定 每 位 教授 最 多 可 以 指导 10 个 学 生 。 以 下 CREATE 
ASSERTION SQL 语句 指定 了 该 规则 : 


CREATE ASSERTION profsadvisinguptol0students 
CHECK ( 
(SELECT MAX( totaladvised ) 
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FROM (SELECT count (*) AS totaladvised 
FROM student 
GROUP BY advisorid)) < 11).; 


CHECK 语句 核查 每 位 教授 所 指导 的 学 生 数 是 否 小 于 11。 如 果 没 有 导师 指导 的 学 生 数 超过 
10， 则 CREATE ASSERTION 语句 将 会 返回 TRUE ; 若 有 导师 指导 的 学 生 数 超过 10， 则 返 
回 FALSE。 
尽管 CREATE ASSERTION 语句 只 是 SQL 标准 中 的 一 部 分 ， 但 是 许多 RDBMS 包 并 不 能 
通过 CREATE ASSERTION 语句 实现 断言 (然而 ， 本 节选 择 给 出 一 个 CREATE ASSERTION 
语句 例子 ， 是 因为 这 刚好 演示 了 实现 用 户 自 定义 约束 的 过 程 )。 大 多 数 RDBMS 包 实 现 断 言 
功能 是 通过 不 同 且 更 复杂 的 机 制 (如 触发 右 ) 来 完成 的 。 
触发 器 (trigger) 是 一 种 规则 ， 当 关系 中 删除 、 插 入 、 修 改 (更 新 ) 一 条 记录 时 执行 
该 规则 。 为 演示 触发 器 规则 ， 下 面 将 考察 如 何 通 过 两 个 触发 器 来 实现 断言 ProfsAdvising- 
UpTol0students (在 MySQL 中 书写 ): 
CREATE TRIGGER studentinserttrigger 
BEFORE INSERT ON student 
FOR EACH ROW 
BEGIN 
DECLARE totaladvised INT DEFAULT 0; 
SELECT COUNT(*) INTO totaladvised 
FROM student 
WHERE advisorid = NEW.advisorid,; 
IF {totaladvised >= 10) THEN 
SET NEW.advisorid = NULL.; 


END IF:; 
END ; 


CREATE TRIGGER studentupdatetrigger 
BEFORE UPDATE ON student 
FOR EACH ROW 
BEGIN 
DECLARE totaladvised INT DEFAULT 0; 
SELECT COUNT(*) INTO totaladvised 
FROM student 
WHERE advisorid = NEW.advisorid,; 
IF (totaladvised >= 10) THEN 
SET NEW.Advisorid = NULL.: 
END IF:; 
END; 
StudentInsertTrigger 使 用 了 一 个 变量 (触发 器 的 局 部 变量 ) TotalAdvised， 其 初始 值 设 为 
0。 该 触发 器 在 每 一 条 INSERT INTO Student 语句 执行 之 前 执行 。NEW.AdvisorID 是 指 待 插 


人 学 生 的 AdvisorID 值 。 人 例如， 假设 向 关系 STUDENT 发 出 以 下 INSERT INTO 语句 : 
INSERT INTO student VALUES ('1111', Mark', "Pll+)s 


新 插入 记录 的 AdvisorID 值 为 P11， 因 此 在 这 种 情况 下 NEW.AdvisorID 也 为 P11。 在 
每 一 次 插入 之 前 ，SELECT 子 句 统计 在 关系 STUDENT 中 有 和 多少 条 记录 和 待 插 入 记录 的 
AdvisorID 值 是 相同 的 (本 例 为 P11 )。 接 下 来 这 个 统计 值 将 会 赋 给 变量 TotalAdvised。 触 发 
华中 IF 子 句 紧 接 着 SELECT 子 句 ， 检 查 这 个 统计 值 是 否 达 到 10。 如 果 达 到 ， 揪 入 操作 将 会 
导致 新 的 统计 值 超 过 10， 这 是 不 允许 的 ， 触 发 器 将 会 使 INSERT INTO 语句 如 下 执行 : 


INSERT INTO student VALUES ('111i', 'Mark', null). 


这 会 导致 这 名 新 插入 的 学 生 没 有 指导 老师 。 然 而 ， 在 本 例 中 ， 由 于 STUDENT 实体 强制 性 参 
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与 到 Advises 联系 中 ，AdvisorID 列 被 设置 为 NOT NULL， 所 以 整个 INSERT INTO 语句 将 
会 被 RDBMS 拒绝 执行 。 然 而 ， 如 果 统 计 计 数 未 超过 10， 则 此 插入 语句 将 会 按照 以 下 形式 


执行 : 


INSERT INTO student VALUES ('11213， 


.Me 


VR a 


StudentUpdateTrigger 与 StudentInsertTrigger 的 工作 方式 类 似 ， 只 是 它 是 由 更 新 (修改 ) 操 
作 而 不 是 插入 操作 触发 执行 的 。 在 本 例 中 ， 不 需要 StudentDeleteTrigger， 因 为 本 例 要 求 的 是 
被 指导 的 学 生 数 不 能 超过 某 一 上 限 ， 而 删除 操作 不 会 增加 任何 导师 所 指导 的 学 生 数 目 。 


关键 术语 


accuracy ( 准确 性 )，197 

assertion (〈 峙 [ 言 )，202 

binary search (二 分 查找 )，188 

CHEGK, 185 

completeness (完整 性 )，198 

conformity (统一 性 )，198 

consistency (一 致 性 )，198 

corrective data quality action (数据 质量 校正 措 
施 )，200 

database front-end (数据 库 前 端 )，192 

data duplication (数据 重复 )，198 

data quality (数据 质量 )，197 

delete cascade (级 联 删 除 )，179 

delete restrict (限制 删除 )，178 

delete set-to-default (删除 设置 为 默认 值 )，180 


复习 题 


delete set-to-null (删除 设置 为 空 )，180 

form (表格 )，192 

index (索引 )，187 

Inear/sequential search (线性 / 顺序 查找 )，187 

preventive data quality action (数据 质量 预防 措 
施 )，200 

report (报表 )，194 . 

timeliness (及 时 性 )，198 

trigger (触发 器 )，203 

uniqueness (唯一 性 )，198 

update cascade (级 联 更 新 )，182 

update restrict (限制 更 新 )，181 

update set-to-default (更 新 设置 为 默认 值 )，183 

update set-to-null (更 新 设置 为 空 )，182 


Q6.1 列 出 用 于 实现 参照 完整 性 约束 的 删除 和 更 新 操作 -。 


Q6.2 有 索引 的 作用 是 什么 ? 

Q6.3 ”数据库 前 端 应 用 的 作用 是 什么 ? 
Q6.4 表格 的 作用 是 什么 ? 

Q6.5 报表 的 作用 是 什么 ? 

Q6.6 简 述 web 网 站 作为 数据 库 接 口 的 优势 。 
Q6.7 定义 数据 准确 性 . 

Q6.8 ”定义 数据 唯一 性 。 

Q6.9 ”定义 数据 完整 性 。 

Q6.10 ”定义 数据 一 致 性 - 

Q6.11 定义 数据 及 时 性 。 

Q6.12 定义 数据 统一 性 。 

Q6.13 给 出 一 个 数据 质量 预防 措施 的 例子 。 
Q6.14 给 出 一 个 数据 质量 校正 措施 的 例子 。 
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练习 


E6.1 考察 图 6-37 所 示 的 两 张 表 。 关系 SALES_REP 的 外 码 列 TerID 参照 关系 TERRITORY 的 主 码 列 
TerlDs 


Eb6.la 


E6.1b 


E6.1c 


E6.1d 


E6.1le 


E6.1f 


E6.18 


E6.1h 


E6.11 


E6.1j 


SALES_REP TERRITORY 


FE 
Su 





图 6-37 关系 SALES REP 和 TERRITORY 


如 果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 限制 删除 操 
作 ， 用 户 删 除 关 系 TERRITORY 中 第 四 条 记录 (N，North) 之 后 ， 写 出 关系 表 SALES_REP 
和 TERRITORY 之 中 的 记录 。 
如 果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 限制 删除 操 
作 ， 用户 删除 关系 TERRITORY 中 第 二 条 记录 ( W，West) 之 后 ， 写 出 关系 表 SALES_REP 
和 TERRITORY 之 中 的 记录 . 
如 果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 限制 删除 操 
作 ， 用 户 删 除 关系 SALES_REP 中 第 一 条 记录 ( 1，、Joe，E) 之 后 ， 写 出 关系 表 SALES REP 
和 TERRITORY 之 中 的 记录 。 
如 果 DBMS 在 关系 SALES_ REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 级 联 删除 操 
作 ， 用 户 删 除 关 系 TERRITORY 中 第 四 条 记录 (N，North) 之 后 ， 写 出 关系 表 SALES_REP 
和 TERRITORY 之 中 的 记录 .- 
如 果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 级 联 删 除 操 
作 、 用 户 删 除 关 系 TERRITORY 中 第 二 条 记录 ( W，West) 之 后 ， 写 出 关系 表 SALES_REP 
和 TERRITORY 之 中 的 记录 。 
如 果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 级 联 删除 操 
作 ， 用 户 删除 关系 SALES_REP 中 第 一 条 记录 ( 1，Joe，E) 之 后 ， 写 出 关系 表 SALES_REP 
和 TERRITORY 之 中 的 记录 
如 果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 删除 设置 为 
空 操作 ， 用 户 删 除 关 系 TERRITORY 中 第 四 条 记录 (N，North) 之 后 ， 写 出 关系 表 SALES_ 
REP 和 TERRITORY 之 中 的 记录 ， 
如 果 DBMS 在 关系 SALES _REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 删除 设置 为 
空 操作 ， 用 户 删 除 关 系 TERRITORY 中 第 二 条 记录 ( W，West) 之 后 ， 写 出 关系 表 SALES_ 
REP 和 TERRITORY 之 中 的 记录 。 
如 果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 删除 设置 为 
空 操作 ， 用 户 删 除 关系 SALES_REP 中 第 一 条 记录 ( 1，Joe，E) 之 后 ， 写 出 关系 表 SALES_ 
REP 和 TERRITORY 之 中 的 记录 。 
如 果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 删除 设置 为 
空 操作 ， 用 户 删 除 关 系 TERRITORY 中 第 四 条 记录 (N，North) 之 后 ， 写 出 关系 表 SALES_ 
REP 和 TERRITORY 之 中 的 记录 。 假设 关系 SALES_REP 中 对 DeptID 的 默认 值 设置 为 “E”。 
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E6.1k 如果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 删除 设置 为 默 
认 值 操作 ， 用 户 删除 关系 TERRITORY 中 第 二 条 记录 ( W，West) 之 后 ， 写 出 关系 表 SALES_ 
REP 和 TERRITORY 之 中 的 记录 。 假设 关 系 SALES_ REP 中 对 DeptID 的 默认 值 设 置 为 “E”。 

E6.11 如 果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 删除 设置 为 默 

认 值 操作 ， 用 户 删除 关系 SALES_REP 中 第 一 条 记录 (1，Joe，E) 之 后 ， 写 出 关系 表 SALES _ 
REP 和 TERRITORY 之 中 的 记录 。 假设 关系 SALES_ REP 中 对 DeptID 的 默认 值 设置 为 “E"”。 
E6.2 ”考察 图 6-37 所 示 的 两 张 表 : 

E6.2a ”如果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 限制 更 新 操 
作 ， 用 户 将 关系 TERRITORY 中 第 四 条 记录 (N，North) 修改 为 (NO，North) 之 后 ， 写 出 
关系 表 SALES REP 和 TERRITORY 之 中 的 记录 。 

E6.2b 如 果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 限制 更 新 操 
作 ， 用 户 将 关系 TERRITORY 中 第 二 条 记录 (W，West) 修改 为 (WE，West) 之 后 ， 写 出 
关系 表 SALES REP 和 TERRITORY 之 中 的 记录 。 

E6.2c ”如果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 限制 更 新 操 
作 ， 用 户 将 关系 SALES_REP 中 第 一 条 记录 ( 1，Joe，E) 修改 为 (1，Joe，C) 之 后 ， 写 出 
关系 表 SALES REP 和 TERRITORY 之 中 的 记录 。 

E6.2d ”如果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 级 联 和 更 新 操 
作 ， 用 户 将 关系 TERRITORY 中 第 四 条 记录 (N，North) 修改 为 (NO，North) 之 后 ， 写 出 
关系 表 SALES REP 和 TERRITORY 之 中 的 记录 。 

E6.2e ”如果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 级 联 更 新 操 
作 ， 用 户 将 关系 TERRITORY 中 第 二 条 记录 (W，West) 修改 为 (WE，West) 之 后 ， 写 出 关 
系 表 SALES_ REP 和 TERRITORY 之 中 的 记录 。 

E6.2f 如 果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 级 联 更 新 操 
作 ， 用 户 将 关系 SALES_REP 中 第 一 条 记录 (1，Joe，E) 修改 为 (1，Joe，C) 之 后 ， 写 出 
关系 表 SALES REP 和 TERRITORY 之 中 的 记录 。 

E6.2g ”如 果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 更 新 设置 为 
空 操作 ， 用 户 将 关系 TERRITORY 中 第 四 条 记录 (N，North) 修改 为 (NO，North) 之 后 ， 
写 出 关系 表 SALES_REP 和 TERRITORY 之 中 的 记录 。 

E6.2h” 如果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 更 新 设置 为 
空 操作 ， 用 户 将 关系 TERRITORY 中 第 二 条 记录 ( W，West) 修改 为 (WE，West) 之 后 ， 
写 出 关系 表 SALES_REP 和 TERRITORY 之 中 的 记录 。 

E6.2i 如 果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 更 新 设置 为 
空 操作 ， 用 户 将 关系 SALES_REP 中 第 一 条 记录 (1， Joe，E) 修改 为 (1，Joe，C) 之 后 ， 
写 出 关系 表 SALES_REP 和 TERRITORY 之 中 的 记录 。 

E6.2j 如 果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 更 新 设置 为 
默认 值 操作 ， 用 户 将 关系 TERRITORY 中 第 四 条 记录 (N,North) 修改 为 (NO,North) 之 后 ， 
写 出 关系 表 SALES_REP 和 TERRITORY 之 中 的 记录 。 假 设 关 系 SALES_ REP 中 对 DeptID 
的 默认 值 设 置 为 “E”。 

E6.2k ”如 果 DBMS 在 关系 SALES REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 更 新 设置 为 
默认 值 操作 ， 用 户 将 关系 TERRITORY 中 第 二 条 记录 (W, West) 修改 为 (WE, West) 之 后 ， 
写 出 关系 表 SALES_REP 和 TERRITORY 之 中 的 记录 。 假 设 关 系 SALES_REP 中 对 DeptID 
的 默认 值 设 置 为 “E”。 

E6.21 如 果 DBMS 在 关系 SALES_ REP 和 TERRITORY 的 参照 完整 性 约束 之 上 实施 了 更 新 设置 为 
默认 值 操作 ， 用 户 将 关系 SALES_REP 中 第 一 条 记录 (1, Joe, E) 修改 为 (1, Joe, C) 之 后 ， 


E6.3 
E6.4 
尼 6.5 


E6.6 
EG.17 


E6.8 


人 学 学 生 
总 数 


锚 6 茧 闪 据 厂 的 实现 与 使用 199 


写 出 关系 表 SALES REP 和 TERRITORY 之 中 的 记录 。 假 设 关 系 SALES_REP 中 对 DeptID 

的 默认 值 设置 为 “E”。 
使 用 图 6-15 演示 查找 客户 名 Peter 的 线性 查找 步 又 。 
使 用 图 6-15 演示 查找 客户 1001 的 二 分 查找 步骤 。 
为 第 3 章 中 图 3-33 所 示 的 表 PRODUCT 建立 PRODUCT _INDEX 索引 表 ， 使 用 ProductID 作为 
索引 指针 。 
用 户 使 用 图 6-23 所 示 的 表格 将 第 五 个 客户 的 zip code 从 60444 修改 为 60999， 写 出 其 SQL 指令 。 
用 户 使 用 图 6-24 所 示 的 表格 在 Customer Name 编辑 框 内 输入 Pam 并 单 击 Search 按钮 ， 写 出 其 
SQL 指令 ， 同 时 写 出 执行 之 后 的 结果 。 
考察 如 下 场景 。 

在 Albus 国际 学 院 ， 每 位 人 学 的 学 生 需 缴纳 $1000 的 押金 。Albus 国际 学 院 共 有 10 名 新 生 ， 
每 位 学 生 都 缴纳 了 押金 。 这 些 信息 都 反映 在 图 6-38 所 示 的 表 A 中 。 表 B 显示 的 是 该 学 院 人 学 
学 生 的 个 人 信息 。 假 设 如 下 : 
表 A: 入 学 学 生存 款 


Deposit Deposit 
Date Amount 


2/14/2013 


2/15/2013 | $1.000 


2/16/2013 
9116/20143 
学 生 总 数 
(有 存款 ) 
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存款 总 数 |$10,000 





表 B: 人 学 学 生 信息 






Date of Deposit Student Home | Student Home 
Town Country 


200603 |suzw |Akko |JA7000001 |ozmzzola |ioyo | 
200605 [laime [Parick | CA3000001 |February at 2013 [Montreal |Canada 
200606 | Van Basten [Robin | NE4000001 [02/14/2013 [Amsterdam | Netherands 
200607 |Van Basten|Rob | NE4000001 |09/14/2013 [Amsterdam |Netherands 
200619 ”|De Beers |inge [NE4000002 [02/15/2013 |Amstordam [Neverang | 










图 6-38 ”Albus 国际 学 院 学 生 表 


[By 
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e 表 A 正确 地 反映 了 每 位 学 生 所 缴纳 的 押金 ， 
e 表 B 中 每 位 学 生 的 姓氏 都 拼写 正确 。 
。 表 B 中 每 位 学 生 的 名 字 (或 缩写 ) 都 拼写 正确 . 
表 B 中 押金 缴纳 的 日 期 格式 为 MM/DD/YYYY. 
e 表 B 中 的 Passport Number 号 都 是 正确 的 。 
表 B 中 所 有 学 生 的 家 乡 都 拼写 正 傅 。 
在 图 6-38 所 示 的 表 B 中 检测 和 分 类 所 有 实例 的 数据 质量 问题 (如 准确 性 、 唯 一 性 、 完 整 性 、 
一 致 性 、 及 时 性 ， 统 一 性 问题 ) - 


第 二 部 分 


Database Systems: Introduction to Dalabases and Dala Warehouses 


分 析 型 数据 库 


第 7 章 | 


Database Systems: Introduction to Databases and Data. Warehouses 


数据 仓库 概念 





7.1 引言 


一 个 典型 的 组 织 往往 维护 并 使 用 着 若干 操作 型 数据 源 。 这 些 操作 型 数据 源 包括 关系 型 数 
据 库 及 其 他 数据 存储 系统 ， 用 于 保存 组 织 机 构 的 日 常 操 作 数据 ， 如 收银 事务 、 信 用 卡 购买 、 
酒店 预订 或 者 学 生成 绩 录 人 等 。 

数据 仓库 作为 单独 的 数据 存储 创建 于 组 织 中 ， 其 主要 目的 是 数据 分 析 。 一 般 情 况 下 ， 同 
一 个 事务 描述 可 以 同时 用 作 操 作 型 和 分 析 型 目的 。 例 如 ， 数 据 描述 “顾客 X 在 商店 Z 处 购 
买 了 产品 Y”， 既 可 以 作为 诸如 存货 监管 或 财务 交易 记录 等 业务 流程 支持 信息 而 存储 到 操作 
型 数据 库 中 ， 也 可 以 保存 到 数据 仓库 中 ， 结 合 一 段 时 间 累 积 记录 下 来 的 大 量 类 似 的 事务 描 
述 ， 它 们 就 可 以 反映 出 一 些 重要 的 趋势 ， 如 销售 模式 或 顾客 行为 等 。 

将 数据 仓库 的 创建 转换 为 单独 的 分 析 型 数据 库 有 两 个 主要 原因 。 第 一 ， 如 果 操 作 型 日 常 
任务 需要 跟 分 析 型 查询 竞争 计算 资源 时 ， 那 么 与 数据 相关 的 操作 型 日 常任 务 的 性 能 就 会 大 幅 
降低 。 第 二 ， 即 使 性 能 不 构成 问题 ， 构 建 一 个 可 以 同时 用 于 操作 型 和 分 析 型 目的 的 数据 库 通 
常 都 不 太 可 能 (第 8 章 会 详细 介绍 )。 因 此 ， 数 据 仓 库 是 作为 一 个 单独 的 数据 存储 而 创建 的 ， 
也 是 为 适合 分 析 查 询 而 设计 的 。 

要 区 分 分 析 型 数据 存储 系统 和 操作 型 数据 存储 系统 ， 需 要 相应 地 区 分 分 析 型 和 操作 型 信 
息 。 本 章 我 们 将 描述 这 两 种 信息 的 区 别 ， 同 时 还 将 给 出 数据 仓库 系统 的 主要 组 件 ， 介 绍 数据 
集 市 与 数据 仓库 的 区 别 ， 本 章 末 尾 将 给 出 创建 数据 仓库 主要 过 程 的 概要 描述 。 


7.2 操作 型 信息 与 分 析 型 信息 


正如 第 1 章 中 所 提 到 的 ， 信 息 系统 所 收集 和 使 用 的 信息 通常 可 以 用 于 两 个 目的 : 操作 和 
分 析 。 

回顾 术语 操作 型 信息 /事务 型 信息 ( operational information/transactional information )， 
它 指 的 是 为 支持 日 常 操作 需要 所 收集 和 使 用 的 信息 。 由 于 操作 型 信息 源 于 个 人 事务 ， 如 利用 
ATM 存 取 坎 或 者 购买 机 票 ， 所 以 操作 型 信息 有 时 候 也 称 为 事务 信息 。 

另 一 方面 ， 术 语 分 析 型 信息 ( analytical information ) 指 的 是 为 支持 数据 分 析 任 务 的 决策 
所 收集 和 使 用 的 信息 。 正 如 第 1 章 所 提 及 的 分 析 型 信息 的 例子 ， 既 可 以 是 描述 ATM 使 用 模 
式 的 信息 (比如 一 天 中 哪些 时 间 段 是 存 取 款 数 量 的 最 高 和 最 低 时 期 )， 也 可 以 是 揭示 航空 公 
司 销售 趋势 的 信息 (比如 在 美国 哪些 路 线 拥有 最 多 或 最 少 的 销售 量 )。 重 要 的 是 ， 应 该 意识 
到 分 析 型 信息 是 以 操作 型 信息 为 基础 的 。 例 如 ， 分 析 型 信息 可 以 揭示 出 一 天 中 不 同时 段 的 
ATM 使 用 模式 ， 而 这 些 信息 则 需要 通过 结合 大 量 的 个 人 ATM 存 取 款 事务 信息 实例 来 得 到 。 

虽然 分 析 型 信息 以 操作 型 信息 为 基础 ， 但 是 两 者 截然 不 同 。 分 析 型 和 操作 型 信息 的 差别 
可 以 分 成 三 类 : 数据 组 成 差别 ， 技 术 差 别 ， 功 能 差别 。 
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7.2.1 数据 组 成 差别 


数据 组 成 差别 是 指 构成 分 析 型 和 操作 型 信息 的 数据 所 具有 的 特性 上 的 差别 。 这 里 我 们 特 
别 给 出 操作 型 和 分 析 型 数据 的 三 个 差别 : 数据 时 间 范 围 ， 数 据 细 节 层 次 ， 数 据 时 间 表 示 。 

1. 数据 时 间 范 围 差别 

操作 型 系统 的 时 间 范 围 比 分 析 型 系统 更 短 。 例 如 ， 在 许多 操作 型 系统 中 ， 数 据 的 时 间 范 
围 一 般 为 60 ~ 90 天 ，90 天 以 后 的 数据 (通常 ) 会 从 操作 型 系统 中 移 除 并 进行 存档 。 

以 电信 公司 为 例 ， 公 司 的 操作 型 数据 库 可 能 只 保存 90 天 的 有 用 数据 ， 代 表 客 户 产 生 的 
个 人 通话 记录 ， 并 通过 相关 应 用 为 客户 代表 提供 服务 。 大 部 分 客户 会 关心 最 近 三 个 月 的 数 
据 ， 因 此 当 需 要 查询 过 去 几 周 或 几 个 月 的 电话 费用 时 ， 客 户 代表 使 用 操作 型 系统 可 以 非常 容 
易 且 快速 地 得 到 电话 记录 信息 。 如 果 该 操作 型 系统 包含 了 数 年 的 有 效 个 人 通话 记录 ， 则 基本 
数据 库 将 会 更 大 ， 因 而 支撑 客户 代表 的 操作 型 系统 在 实现 传统 查询 时 就 会 更 慢 。 这 可 能 导致 
系统 对 大 部 分 客户 查询 的 回复 速度 过 慢 ， 这 也 是 为 什么 操作 型 系统 (在 本 例 中 ) 的 时 间 范 围 
为 90 天 。 如 果 一 个 罕见 查询 需要 讨论 客户 三 年 前 的 一 条 通话 记录 ， 此 时 公司 可 以 通过 查找 
存档 数据 来 满足 这 个 不 寻常 的 请 求 。 当 然 ， 这 种 查询 请 求 处 理 起 来 可 能 很 慢 ， 但 是 比 起 大 幅 
降低 偶然 出 现 的 非典 型 请 求 的 查询 速度 ， 快 速 处 理 大 量 出现 的 典型 查询 显然 更 有 意义 。 大 部 
分 用 于 操作 型 目的 的 查询 请 求 只 在 相对 较 短 的 时 间 跨 度 内 查询 数据 。 在 操作 型 系统 中 保存 各 
时 间 段 内 的 所 有 数据 可 能 造成 不 必要 的 混杂 ， 继 而 由 于 这 些 多 余 且 巨大 的 搜索 空间 ， 操 作 型 
查询 会 变 得 更 加 缓慢 。 

男 一 方面 ， 分 析 型 数据 存储 系统 通常 需要 提供 数 年 的 数据 趋势 和 模式 分 析 。 因 此 ， 分析 
型 数据 库 比 操作 型 数据 库 具 有 更 长 的 时 间 范 围 。 分 析 型 数据 库 的 数据 时 间 范 围 常常 跨越 数 
年 。 不 同 的 数据 时 间 范 围 需求 是 将 操作 型 和 分 析 型 数据 进行 物理 分 离 的 主要 原因 。 时 间 范 围 
” 较 短 的 操作 型 数据 库 往 往 作为 提供 操作 型 数据 使 用 功能 的 站 点 ， 而 具有 较 长 时 间 范 围 的 分 析 
型 数据 存储 系统 则 作为 提供 分 析 型 查询 功能 的 站 点 。 

2. 数据 细节 层次 差别 

操作 型 数据 通常 反映 的 是 细节 数据 。 换 言 之 ， 它 对 每 条 个 人 交易 事务 的 细节 都 进行 了 记 
录 。 这 种 层次 的 细节 也 称 为 详细 细节 层次 。 如 电信 公司 的 操作 型 数据 库 记 录 了 每 一 条 通话 ， 
通常 包括 主 叫 号 码 、 被 叫 号 码 、 通 话 起 始 时 间 以 及 通话 时 间 。 

汇总 数据 ， 如 本 周 内 所 有 客户 通话 记录 的 时 间 总 和 ， 可 以 从 细节 数据 计算 得 到 。 这 样 的 
汇总 数值 通常 不 会 存储 在 操作 型 数据 库 中 ， 这 是 因为 这 些 数值 的 计算 速度 几乎 和 存储 后 的 检 
索 速度 一 样 快 。 同 时 ， 汇 总 数据 会 有 频繁 的 改变 ， 因 此 存储 汇总 数据 的 意义 不 大 。 例 如 ， 每 
次 客户 另外 拨打 一 个 电话 时 ， 客 户 的 每 周 总 通话 时 间 就 要 相应 地 改变 。 

在 操作 型 数据 库 中 ， 这 些 汇总 数据 通常 并 不 存储 ， 而 是 作为 根据 公式 得 到 的 派生 属性 。 
因此 ,每 次 客户 再 拨打 一 个 电话 ， 每 周 的 总 通话 时 间 就 会 自动 重新 计算 并 且 在 应 用 程序 终端 
进行 相应 的 更 新 。 另 一 方面 ， 分 析 型 数据 库 可 以 同时 包含 物理 存储 的 细节 数据 和 汇总 数据 。 
分 析 型 数据 库 的 汇总 数据 ， 如 过 去 10 年 各 个 星期 顾客 的 通话 时 间 ， 通 常会 事先 计算 好 并 进 
行 物理 存储 。 鉴 于 分 析 型 数据 库 的 历史 特性 ， 这 些 汇 总 值 并 不 发 生 改 变 ， 因 而 在 分 析 型 数据 
库 中 物理 存储 这 些 汇 总 值 是 可 行 的 。 例 如 ， 过 去 几 年 的 每 周 通话 时 间 总 长 并 不 会 随时 间 发 生 
改变 。 如 果 分 析 师 需要 频繁 地 使 用 这 些 汇总 数值 ， 存 储 计算 结果 就 比 每 次 需要 时 重新 计算 更 
具 意 义 。 重 复 计 算 通 常 更 适合 操作 型 数据 库 ， 这 是 由 于 其 动态 特性 、 相 对 小 的 数据 存储 量 以 
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及 相对 短 的 时 间 范 围 等 特点 所 决定 的 。 然 而 对 于 具有 较 长 时 间 范 围 且 存储 了 大 量 数据 的 分 析 
型 数据 库 ， 比 起 每 次 需要 时 重新 计算 ,保存 汇总 数据 能 更 有 效 地 减少 分 析 查 询 的 时 间 开 销 。 
3. 数据 时 间 表 示 差 别 
操作 型 数据 通常 反映 现实 世界 事务 的 当前 状态 ， 而 分 析 型 数据 既 能 表示 当前 状态 还 能 表 
示 过 去 时 刻 的 快照 。 例 如 ， 对 于 银行 顾客 通常 会 有 一 个 数据 表示 其 文 票 余额 。 如 果 顾 客 进行 


了 一 次 取款 或 者 存款 操作 ， 支 票 余额 会 相应 改变 ， 新 的 当前 值 则 会 替代 旧 的 值 ， 


分 析 型 数据 存储 系统 既 可 以 包含 顾客 的 当前 余额 ， 也 可 以 包含 顾客 一 段 时 间 之 前 的 余 
额 ， 也 称快 照 ， 如 在 整个 时 间 范 围 内 每 个 月 末 的 支票 余额 。 这 些 快照 可 以 一 次 性 计算 好 并 存 
储 起 来 以 备 分 析 师 充分 利用 ， 而 不 是 在 分 析 师 需要 的 每 个 时 间 点 上 重新 计算 。 


7.2.2 ”技术 差别 

技术 差别 定义 为 DBMS 及 应 用 程序 对 操作 型 和 分 析 型 数据 的 处 理 与 访问 方式 的 差别 。 
下 文 将 描述 查询 数据 总 量 、 查 询 频 度 、 数 据 更 新 、 数 据 宛 余 几 个 方面 的 技术 差别 。 

1. 查询 数据 总 量 和 查询 频 度 差 别 

比 起 分 析 型 查询 ， 操 作 型 查询 通常 处 理 的 数据 量 更 小 。 另 一 方面 ， 操 作 型 查询 通常 比分 
析 型 查询 出 现 的 频率 更 高 且 用 户 数 量 更 多 。 通 过 系统 配置 来 优化 处 理 少量 数据 的 频繁 查询 操作 
或 处 理 大 量 数 据 的 不 频繁 操作 通常 是 可 行 的 。 但 要 在 技术 上 通过 系统 配置 同时 实现 两 种 情况 
的 优化 通常 是 不 可 能 的 。 这 就 是 数据 仓库 必须 作为 物理 上 分 隔 的 数据 存储 系统 的 另 一 个 原因 。 

2. 数据 更 新 差别 

操作 型 系统 中 的 数据 由 用 户 进 行 有 规律 地 更 新 。 在 操作 型 数据 库 中 ， 除 了 提出 检索 数据 
的 查询 请 求 ， 用 户 往 往 还 要 按 惯例 进行 插入 、 修 改 以 及 删除 数据 的 操作 。 而 在 分 析 型 数据 库 
中 ,终端 用 户 只 能 检索 数据 ， 更 新 数据 则 是 不 允许 的 . 

3. 数据 元 余 差 别 

正如 本 书 前 面 草 节 所 详细 描述 的 ,操作 型 数据 库 的 主要 目标 就 是 减少 信息 元 余 。 使 元 余 
最 小 化 的 主要 原因 是 为 了 减 小 更 新 异常 的 可 能 。 然 而 ,分 析 型 数据 库 并 不 允许 终端 用 户 进 行 
数据 更 新 ， 继 而 也 就 不 存在 数据 更 新 异常 的 情况 。 因 此 ， 分析 型 数据 库 中 的 减少 数据 元 余 必 
然 不 如 操作 型 数据 库 中 重要 。 


7.2.3 功能 差别 


功能 差别 定义 为 操作 型 数据 和 分 析 型 数据 使 用 原理 上 的 不 同 。 接 下 来 我 们 将 描述 的 两 种 
功能 差别 与 数据 读者 和 数据 定位 有 关 。 

1. 数据 读者 差别 

操作 型 数据 支撑 着 商业 公司 及 组 织 机 构 的 日 党 操作， 这 些 数 据 会 被 大 量 雇员 、 顾 客 以 及 
其 他 用 户 用 于 各 种 实际 战略 目的 。 例 如 ， 和 售货员 可 以 使 用 操作 型 信息 为 购买 商品 的 顾客 进行 
合适 的 找 零 ， 旅 行家 可 以 使 用 操作 型 信息 预订 飞 往 目 的 地 的 机 票 。 与 操作 型 数据 的 广泛 使 用 
相 比 ， 分 析 型 数据 往往 只 被 少量 用 户 用 来 进行 市 场 决策 。 例 如 ， 和 零售 连锁 店 的 CEO 可 以 使 
用 大 量 复杂 的 分 析 型 信息 来 决定 应 该 关闭 哪些 已 有 的 门店 或 应 该 在 何 处 开 新 店 。 

2. 数据 定位 差别 

这 里 所 讨论 的 操作 型 和 分 析 型 信息 的 “定位 ”一 词 ， 意 指 信 息 是 以 何 种 目的 组 织 起 来 的 。 
操作 型 数据 库 通 常 是 为 了 支持 东 个 为 业务 操作 及 处 理 过 程 提供 服务 的 应 用 而 创建 的 。 以 操作 
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型 数据 库 为 例 ， 船 运 公司 的 订单 录 人 数据 库 或 者 牙医 办 公 室 的 预约 管理 数据 库 通 过 为 应 用 提 
供 数 据 存储 来 支持 相关 操作 。 因 此 操作 型 数据 库 又 称 为 面向 应 用 型 (application-oriented ) 数 
据 库 。 

相反 ， 分 析 型 数据 库 是 为 特定 的 业务 主题 领域 的 分 析 任 务 而 创建 的 ， 如 销售 、 收 益 、 成 
本 、 利 润 等 。 分 析 型 数据 库 围绕 待 分 析 的 主题 而 建 ， 因 此 分 析 型 数据 库 又 称 为 面向 主题 型 
(subject-oriented ) 数据 库 。 

下 面 的 这 个 例子 表明 了 面向 应 用 型 与 面向 主题 型 数据 在 组 织 上 的 差别 。 该 例 给 出 一 个 
较 黎 单 的 场景 活力 健康 俱乐部 。 健 身 中 心 拥有 按 月 交会 费 的 固定 会 员 。 会 员 可 以 分 为 两 
种 ， 一 种 是 $100 会 费 的 金牌 会 员 ， 另 一 种 是 $50 会 费 的 普通 会 员 。 普 通 会 员 可 以 使 用 除 游 
泳池 以 外 的 全 部 设备 ， 金 牌 会 员 则 可 以 使 用 包括 游泳 池 在 内 的 所 有 设备 。 人 和 俱乐部 还 提供 非 会 
员 的 每 日 消费 形式 ， 非 会 员 顾客 支付 每 天 $10 的 费用 就 可 以 使 用 除 游 泳池 以 外 的 全 部 设备 ， 
支付 每 天 $15 的 费用 就 可 以 使 用 包括 游泳 池 在 内 的 所 有 设备 。 图 7-1 展示 了 一 个 为 活力 健康 
俱乐部 建立 的 面向 应 用 型 数据 集 ， 它 可 以 为 该 公司 的 计算 机 应 用 提供 支持 ， 收 银 员 通过 该 应 
用 处 理 缴费 操作 以 及 会 员 和 非 会员 的 消费 操作 .。 





HEALTH CLUB MEMBER 











MLeveliD DateMembershipPaid 


MemberiD MemberGender 






MEMBERSHIP LEVEL 


MLevellD MLevelType MLevelFee MLevelDescription 


$100 Includes the Pool Usage 


DAILY VISIT FROM NONMEMBERS 




















DVisitLevelID | DVisitLevelFee | DVisitLevelType 


Wih Poo Usage 


图 7-1 支持 活力 健康 俱乐部 访问 和 支付 操作 的 面向 应 用 型 数据 库 


简单 起 见 ， 我 们 只 展示 了 HEALTH CLUB MEMBER 以 及 DAILY VISIT FROM 
NONMENMBERS 两 个 关系 表 的 前 面 几 行 记录 。 

图 7-2 展示 了 一 个 为 该 俱乐部 创建 的 面向 主题 型 数据 集 ， 它 可 以 文 持 税收 主题 的 分 析 
任务 。 
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图 7-2 ”为 进行 营业 额 分 析 而 建立 的 面向 主题 型 数据 库 


图 7-1 和 图 7-2 的 数据 集 包 含 的 数据 完全 相同 ， 只 是 组 织 方式 不 同 而 已 。 图 7-2 中 
的 RecordID 列 是 表 的 主 码 ， 用 于 区 别 不 同 的 记录 ， 它 在 数据 库 中 保存 为 自动 增加 的 整 型 
数值 。 图 7-2 中 的 所 有 其 他 数据 均 来 自 图 7-1。 例 如 ， 记 录 1000 是 将 表 HEALTH CLUB 
MEMBER 首 条 记录 的 一 部 分 与 表 MEMBERSHIP LEVEL 首 条 记录 的 一 部 分 进行 组 合 之 后 
得 到 的 结果 。 由 于 表 HEALTH CLUB MEMBER 以 及 表 MEMBERSHIP LEVEL 都 与 会 员 相 
关 ， 因 此 列 GeneratedBy 中 有 了 Member 一 项 。 记 录 1002 则 是 将 表 DAILY VISIT FROM 
NONMEMBERS 的 首 条 记录 的 一 部 分 与 表 VISIT LEVEL 的 首 条 记录 组 合 以 后 得 到 的 结果 。 
列 GeneratedBy 中 的 项 Nonmember 则 是 源 于 这 两 个 关系 表 均 是 非 会 员 相 关 的 事实 。 

图 7-1 中 的 数据 集合 已 经 规范 化 成 了 多 个 关系 表 ， 很 适合 活力 健康 俱乐部 的 消费 和 文 付 
应 用 。 例 如 ， 当 有 新 会 员 加 入 时 ， 管 理会 员 的 工作 人 员 只 需要 在 HEALTH CLUB MEMBER 
表 中 使 用 合适 的 代号 (A 或 B) 输入 一 条 新 记录 ， 这 条 记录 就 会 自动 与 MEMBERSHIP 
LEVEL 表 中 的 相应 记录 进行 关联 。 因 此 ， 工 作 人 员 只 需要 在 HEALTH CLUB MEMBER 表 
中 添加 一 条 新 的 记录 ， 不 需要 再 输入 任何 其 他 信息 ， 之 后 便 可 收取 会 费 ($50 或 $100 )。 该 
面向 应 用 型 数据 库 可 以 有 效 地 支持 相关 应 用 的 功能 。 

图 7-2 中 的 数据 集合 包含 在 一 个 以 营业 额 分 析 为 目的 而 建立 起 来 的 面向 主题 型 关系 表 
中 。 根 据 图 7-1 的 操作 型 数据 库 可 分 析 营 业 额 相关 数据 的 具体 类 别 ， 图 7-2 的 关系 表 中 的 列 
则 相应 包含 了 总 营业 额 、 日 期 、 顾 客 类 型 、 顾 客 性 别 以 及 营业 额 相关 的 使 用 类 型 等 。 在 这 张 
关系 表 上 建立 单 表 查询 就 可 以 直接 根据 日 期 、 顾 客 类 型 、 顾 客 性 别 进 行营 业 额 分 析 。 

虽然 活力 健康 俱乐部 也 可 以 利用 图 7-1 中 的 数据 库 进 行营 业 额 分 析 ， 但 是 分 析 的 过 程 一 
定 不 如 利用 图 7-2 中 的 关系 表 简 单 直 接 。 为 了 在 图 7-1 的 数据 库 中 得 到 所 有 的 营业 记录 ， 分 
析 人 员 必 须 首 先 将 最 上 方 的 两 个 关系 表 进 行 连接 ， 然 后 连接 最 下 方 的 两 个 表 ， 最 后 通过 合并 
两 个 连接 结果 将 所 有 营业 记录 展示 出 来 。 

实际 上 ， 像 活力 健康 俱乐部 这 样 的 公司 可 以 采用 其 他 操作 型 数据 表 来 描述 额外 的 营业 额 
来 源 。 比 如 ， 用 来 描述 俱乐部 专卖 店 购买 记录 的 关系 表 或 描述 俱乐部 饮料 能 量 吧 购买 记录 的 
关系 表 。 这 时 ， 将 图 7-2 所 示 的 所 有 营业 额 实例 都 合并 到 关系 表 的 面向 主题 型 数据 集中 ， 也 
可 以 直接 用 于 营业 额 分 析 。 男 一 方面 ， 仪 仅 使 用 操作 型 数据 集 进行 分 析 可 能 会 涉及 更 多 的 复 
杂 操 作 ， 如 建立 连接 以 及 在 连接 之 上 建立 连接 。 分 析 人 员 很 快 就 会 发 现 ， 他 们 用 于 集合 必要 
数据 的 时 间 ( 即 数据 准备 ) 将 会 比 用 于 分 析 的 时 间 更 多 。 

正如 上 文 所 描述 的 ,图 7-2 中 的 面向 主题 型 数据 集 比 图 7-1 中 的 面向 应 用 型 数据 集 更 适 
合 进 行 收 入 分 析 。 
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同样 ， 图 7-1 中 的 面向 应 用 型 数据 集 比 较 适合 支持 操作 型 应 用 ， 而 图 7-2 中 的 面向 主题 
型 数据 集 并 不 适合 这 个 目的 。 


7.3 数据 仓库 定义 
现在 已 经 清楚 了 分 析 型 信息 和 操作 型 信息 之 间 的 区 别 ， 接 下 来 继续 考察 最 基本 的 分 析 型 


数据 存储 系统 : 数据 仓库 (data warehouse ) 。 
不 管 是 从 实践 的 角度 还 是 理论 的 角度 ， 都 有 许多 摘 述 术语 “数据 仓库 ”的 定义 。 这 些 定 


义 之 间 稍 有 差别 ， 但 是 对 通用 概念 保持 一 致 。 下 面 的 这 个 一 般 性 定义 就 包含 了 这 些 概 念 : 


数据 仓库 

数据 仓库 是 一 种 结构 化 的 数据 存储 形式 ， 其 存储 的 数据 具有 集成 性 、 面 向 主 
题 、 企 业 范 围 跨度 、 历 史 性 以 及 时 变性 的 特点 。 数 据 仓库 的 目的 是 用 于 对 分 析 型 数 
据 进 行 检 索 。 数 据 仓库 可 以 保存 细节 型 或 汇总 型 的 数据 。 


接 下 来 我 们 将 继续 分 析 本 定义 中 涉及 的 几 个 基本 概念 。 
7.3.1 结构 化 数据 存储 


数据 仓库 是 一 种 保存 了 可 分 析 的 有 用 数据 的 数据 库 。 任 何 一 个 数据 库 都 是 一 种 结构 化 的 
数据 存储 ， 结 构 表 示 其 元 数据 。 因 此 ， 数 据 仓库 作为 数据 库 的 一 种 ， 也 是 一 种 结构 化 的 数据 
存储 。 换 句 话 说 ， 数 据 仓库 并 不 是 大 量 随机 数据 的 杂乱 集合 。 


7.3.2 ”集成 性 


数据 仓库 的 目的 是 为 分 析 型 信息 创建 一 种 有 序 的 存储 形式 ， 这 种 存储 与 已 有 的 操作 型 数 
据 库 在 组 织 上 是 物理 分 离 的 。 数 据 仓库 集成 了 操作 型 数据 库 中 各 种 可 分 析 的 有 用 数据 ， 集 
成 就 是 将 多 个 操作 型 数据 库 中 的 数据 转换 到 一 个 单一 数据 仓库 中 的 过 程 。 当 然 ， 在 这 个 过 程 
中 ， 并 不 是 把 数据 从 操作 型 数据 库 中 移 除 ， 而 是 将 各 个 操作 型 数据 库 中 可 分 析 的 有 用 数据 复 
制 到 数据 仓库 中 。 


7.3.3 面向 主题 


术语 “ 面 癌 主题 ”反映 了 操作 型 数据 库 系 统 与 数据 仓库 在 目的 上 的 基本 差别 。 操 作 型 数 
据 库 系统 是 为 了 支持 一 些 特殊 的 业务 操作 而 创建 的 ， 而 数据 仓库 是 为 了 对 这 些 特殊 的 业务 主 
题 领域 进行 分 析 而 创建 的 。 


7.3.4 企业 范围 


数据 仓库 是 一 种 关于 可 分 析 的 有 用 数据 的 存储 形式 。 术 语 “ 企 业 范 围 ” 是 指数 据 仓库 可 
以 为 包含 在 其 中 的 信息 提供 一 个 机 构 范 围 的 全 局 视图 。 例 如 ， 如 果 数 据 仓库 的 主题 之 一 为 成 
本 ,那么 整个 机 构 的 操作 型 数据 源 中 所 有 有 关 成 本 的 可 分 析 的 有 用 数据 都 会 包含 到 该 数据 仓 
库 中 来 。 


7.3.5 历史 性 
与 操作 型 信息 相 比 ， 分 析 型 信息 具有 更 长 的 时 间 跨 度 。 给 定 一 个 包含 分 析 型 信息 的 数据 
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仓库 ， 该 数据 仓库 的 时 间 跨 度 比 操作 型 数据 库 更 长 (通常 如 此 )。 术 语 “历史 性 ”是 指数 据 
仓库 所 具有 的 比 操作 型 数据 库 更 长 的 时 间 范 围 。 例 如 ， 许 多 传统 操作 型 数据 库 的 时 间 范 围 为 
60 一 90 天 ， 而 对 数据 仓库 来 说 ， 包 含 数 年 有 效 数据 的 情况 更 为 常见。 


7.3.6 ”时 变性 

术语 “时 变性 ”是 指数 据 仓库 包含 来 自 其 时 间 范 围 内 不 同 区 间 的 数据 片段 或 子 图 快照 。 
有 了 这 些 数据 片段 后 ,用户 便 可 以 为 时 间 范 围 内 各 个 时 间 段 的 数据 创建 报告 。 例 如 ， 如 果 分 
析 主 题 为 成 本 且 时 间 跨 度 为 数 年 ， 那 么 我 们 便 可 以 进行 一 年 前 的 一 季度 成 本 与 两 年 前 的 一 季 
度 成 本 的 比较 分 析 。 


7.3.7 分 析 型 信息 的 检索 


数据 仓库 正 是 为 了 分 析 型 信息 的 检索 而 建 的 ， 而 不 是 为 用 户 直接 输入 数据 而 建 的 。 对 数 
据 仓 库 用 户 来 说 ， 唯 一 可 用 的 功能 就 是 检索 。 数 据 仓库 中 的 数据 并 不 会 受到 终端 用 户 的 修 
改 、 捅 和 人 或 删除 操作 的 影响 。 数 据 仓 库 中 的 新 数据 周期 性 地 从 操作 型 数据 源 中 导入 继而 添加 
到 已 有 数据 中 ， 该 过 程 由 系统 自动 完成 。 那 些 超 过 时 间 跨 度 的 数据 由 于 太 陈 旧 则 会 自动 被 系 
统 从 数据 仓库 中 净化 掉 (也 可 能 进行 存档 或 者 归纳 )。 然 而 ,数据 仓 库 中 的 数据 不 会 受到 这 
些 改变 的 影响 ， 这 就 是 为 什么 数据 仓库 中 的 数据 具有 非 易 失 、 稳 定 以 及 只 该 的 特点 。 


7.3.8 细节 数据 和 汇总 数据 

根据 不 同 的 目的 ， 数 据 仓 库 可 能 包含 细节 数据 、 汇 总 数据 或 者 两 者 篆 有 。 细 节 数 据 又 称 
为 原子 数据 或 事务 级 数据 。 例 如 ， 将 每 一 条 ATM 交易 事务 都 进行 了 单独 记录 的 关系 表 包 含 
的 就 是 细节 数据 (原子 数据 、 事 务 级 数据 )。 男 一 方面 ， 有些 关 系 表 中 的 记录 是 根据 多 个 事 
务 级 实例 数据 计算 得 到 的 ， 这 些 表 包 含 的 就 是 更 粗 粒 度 的 汇总 数据 。 例 如 ， 汇 总 数据 可 以 表 
示 一 台 ATM 在 某 个 月 的 取款 总 量 。 

那些 包含 了 最 细 粒 度数 据 的 数据 仓库 最 为 有 有用， 因为 通过 这 样 的 数据 仓库 可 以 计算 得 到 
所 有 汇总 数据 ， 如 果 需 要 重复 使 用 则 可 以 保存 下 来 。 然 而 ， 要 将 整个 时 间 范 围 内 的 所 有 事务 
级 分 析 型 数据 详细 地 记录 下 来 ， 则 会 代价 过 高 。 例 如 ， 一些 组 织 机 构 可 能 没有 经 济 能 力 来 购 
屎 能 存储 和 处 理 巨 大 数据 集 的 特殊 人 硬件 和 软件 。 同 时 还 有 男 一 种 情形 ， 即 机 构 自 行 对 某 些 待 
分 析 主 题 的 数据 做 出 这 样 的 决策 : 汇总 型 数据 是 合适 的 ， 事务 级 的 细节 数据 则 没有 必要 。 当 
企业 没有 能 力 或 者 不 愿意 保存 其 所 需要 的 最 细 粒 度 的 细节 数据 时 ， 那 么 数据 仓库 中 部 分 或 者 
所 有 【依据 具体 情况 而 定 ) 待 分 析 主 题 的 数据 都 只 保留 到 特定 的 汇总 级 别 。 


7.4 数据 仓库 组 件 操作 型 数据 源 A 






每 个 数据 仓库 系统 的 核心 都 有 三 个 主要 组 件 : 源 系 用 户 A 
统 、 提 取 一 转 搁 一 加 载 (ETL) 架构 以 及 数据 仓库 本 身 。 
用 户 B 


大 部 分 数据 仓库 系统 还 有 前 端 应 用 部 分 。 本 节 我 们 将 简 

要 地 前 明 并 讨论 这 些 组 件 . 
图 7-3 给 出 了 一 个 企业 的 示例 场景 ， 为 完成 日 党 操 ” 源 系统 

作 ， 用 户 需 要 同时 使 用 多 个 操作 型 数据 存储 。 图 7-3 一 个 企业 将 操作 型 数据 源 用 于 
然而 对 分 析 型 目的 来 说 ， 另 一 种 方法 就 是 使 用 如 图 操作 型 目的 的 例子 
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7-4 所 示 的 数据 仓库 ， 在 一 系列 面 问 应 用 的 操作 型 数据 源 中 进行 搜寻 ， 因 此 将 会 花费 大 量 时 


操作 型 数据 源 A | 
\ 


间 用 于 数据 准备 而 不 是 数据 分 析 - 
7.4.1 源 系统 


在 数据 仓库 领域 中 ， 源 系统 
( source system) 是 指 那些 为 数据 仓库 
分 析 主 题 提供 可 分 析 的 有 用 信息 的 操 
作 型 数据 库 以 及 其 他 操作 型 数据 存储 
系统 ( 即 用 于 操作 型 目的 的 任何 数据 
集 )。 用 作 数 据 仓 库 源 系 统 的 所 有 操 
作 型 数据 存储 系统 都 有 两 个 目的 : 

e 最 初 的 操作 型 目的 。 

e 作为 数据 仓库 的 源 系统 。 

操作 型 数据 存储 的 最 初 目 的 就 是 为 用 户 提供 操作 型 功能 。 操 作 型 数据 存储 也 可 以 用 作 数 
据 仓库 的 数据 源 ， 为 数据 仓库 提供 数据 。 注 意 ， 这 些 功 能 是 同时 进行 的 。 换 句 话 说， 就 算 成 





图 7-4 数据 仓库 系统 的 核心 组 件 








为 了 数据 仓库 的 源 系统 ， 操 作 型 数据 人 
存储 依然 能 一 如 既往 地 完成 其 操作 型 EL 总 
功能 


除 组 织 机 构 中 的 操作 型 数据 源 之 
外 ， 源 系统 还 可 以 包含 一 些 外 部 数据 | 


源 来 为 一 些 实例 命名 ， 如 第 三 方 市 场 


赋 究 数 据 、 人 口 数据 、 股 市 数据 或 者 


SC 


[_ETL | 一 | 数据 仓库 | 





天 气 数据 。 图 7-5 给 出 了 一 个 同时 包 
括 企 业内 部 的 操作 型 源 系统 和 外 部 源 

外 部 数据 源 B | 
系统 的 数据 仓库 例子 ee 


7.4.2 数据 仓库 图 7-5 同时 包括 内 部 与 外 部 源 系统 的 数据 仓库 


数据 仓库 本 身 就 是 为 集成 来 自 源 系统 的 分 析 型 数据 提供 存储 的 系统 。 数 据 仓 库 有 时 又 称 
目标 系统 ， 意 思 是 数据 仓库 是 源 系统 中 数据 的 目的 地 。 典 型 的 数据 仓库 会 周期 性 地 从 操作 型 
数据 源 中 检索 精 选 好 的 可 分 析 的 有 用 数据 。 在 所 谓 的 “活动 的 ”数据 仓库 中 ， 从 操作 型 数据 
源 中 检索 数据 是 一 个 持续 不 断 的 过 程 。 


7.4.3 ETL 


对 任何 一 个 数据 仓库 来 说 ， 完 成 从 操作 型 数据 库 中 检索 数据 功能 的 设备 称 为 提取 - 转 
换 - 加 载 (extraction-transformation-load，ETL) 设备 。ETL 包含 如 下 几 个 任务 : 
e 从 操作 型 数据 源 中 提取 可 分 析 的 有 用 数据 。 
e 转换 数据 使 其 满足 面向 主题 目标 数据 仓库 的 结构 ， 同 时 利用 数据 清洗 和 数据 净化 过 
程 来 确保 转换 后 的 数据 质量 . 
e 将 转换 后 且 有 质量 保证 的 数据 加 载 到 目标 数据 仓库 中 。 
源 系统 、ETL 以 及 数据 仓库 ， 这 三 个 组 件 形成 了 所 有 数据 仓库 系统 的 核心 部 分 。 
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7.4.4 数据 仓库 前 端 (Bl) 应 用 

与 操作 型 数据 库 一 样 ， 数 据 仓 库 系统 通常 还 提供 具有 直接 访问 数据 仓库 功能 的 前 闹 应 
用 程序 ， 以 满足 那些 急切 希望 通过 前 端 应 用 实现 间接 访问 的 用 户 需 求 。 图 7-6 说 明了 这 一 情 
况 。 数 据 仓库 前 端 应 用 也 称 为 BI (商务 智能 ) 应 用 ， 





操作 型 数据 源 A 
| 操作 型 数据 源 B | 
| 区 \ | 前 端 (BD 应 用 | 
,| ETL | 一 >| 数据 仓库 
操作 型 数据 源 Z | 前 端 (BI) 应 用 | 
外 部 数据 源 A 
外 部 数据 源 B 
源 系统 


图 7-6” 带 有 前 端 应 用 的 数据 仓库 


7.5 数据 集 市 


数据 集 市 是 一 种 与 数据 仓库 具有 相似 准则 的 数据 存储 形式 ， 但 相 比 数据 仓库 ， 其 范围 更 
小 。 数 据 仓库 包含 的 数据 是 检索 自 整 个 组 织 机 构 的 操作 型 数据 库 的 多 主题 分 析 数 据 ， 而 数据 
集 市 通常 较 小 ， 包 含 的 数据 只 与 一 个 主题 相关 ， 不 需 涉及 整个 企业 范围 。 图 7-7 中 的 表 总 结 
了 术语 “数据 仓库 ”与 “数据 集 市 ”之 间 的 区 别 。 

数据 集 市 有 两 种 主要 类 别 : 独立 数据 集 市 与 非 独 立 数 据 集 市 。 


| 
单个 
较 少 
没有 那么 大 
没有 那么 长 
通常 小 于 整个 组 织 范围 


图 7-7 数据 仓库 和 数据 集 市 性 质 


独立 数据 集 市 (independent data mart) 是 一 种 单独 的 数据 集 市 ， 创 建 形式 与 数据 仓库 一 
216] ” 致 。 它 有 自己 的 源 系 统 和 ETL 架构 。 图 7-7 列 出 了 独立 数据 集 市 与 数据 仓库 的 区 别 : 单一 
主题 、 少 量 数据 源 、 规 模 小 、 实 现时 间 短 、 范 围 小 。 
非 独 立 数据 集 市 (dependent data mart) 没有 上 自己 的 源 系 统 ， 它 的 数据 来 自 数 据 仓 库 ， 这 
也 是 “ 非 独立 ”的 由 来 。 当 用 户 或 者 应 用 程序 不 需要 、 不 必要 或 不 允许 用 到 整个 数据 仓库 的 
数据 时 ， 非 独立 数据 集 市 就 可 以 简单 地 为 用 户 提 供 数 据 仓 库 数 据 的 一 个 子 集 。 
第 8 章 中 将 讨论 独立 与 非 独 立 数据 集 市 用 于 多 种 数据 仓库 建 模 的 过 程 。 


7.6 数据 仓库 开发 步骤 
与 数据 库 系统 一 样 ， 数 据 仓库 系统 也 需要 经 过 一 系列 特定 顺序 的 步骤 才能 建立 起 来 。 如 
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图 7-8 所 示 ， 图 中 描述 了 一 个 数据 仓库 (DWH) 系统 生命 周期 中 最 核心 的 开发 活动 。 


er sm 
数据 仓库 需求 
需求 收集 “ 笋 据 候 亩 建 模 圳 创 建 数据 仓库 | | 数据 仓库 部 团 数据 仓库 使 用 
: (直接 / 间接 使 用 ) 
斋 求 定义 | 
逢 求 可 视 化 
数据 仓库 
管理 和 维护 
图 7-8 数据 仓库 开发 步 双 


《概念 建 模 ) 

一 旦 数据 仓库 项 日 启动 ， 包 插 计 划 、 预 算 等 在 内 的 活动 就 都 开始 了 。 完 成 这 些 活动 之 后 [217| 
就 是 数据 仓库 的 实际 开发 过 程 ， 如 图 7-8 所 示 。 接 下 来 . 我们 将 阐述 并 讨论 数据 仓库 开发 过 
程 中 的 每 个 步骤 。 


7.6.1 需求 收集 、 定 义 与 可 视 化 


需求 收集 、 定 义 与 可 视 化 (requirements collection, definition, and visualization ) 是 数据 
仓库 开发 过 程 中 的 第 一 步 也 是 最 重要 的 步 又。 如 果 该 步骤 成 功 了 ， 接 下 来 的 步骤 就 可 能 比较 
顺利 。 相 反 ， 如 果 这 个 步骤 出 现 错误 ， 后面 的 所 有 步骤 连同 整个 项 目 都 会 失败 。 该 步骤 在 图 
7-8 中 用 灰色 背景 进行 了 高 亮 显 示 ， 以 强调 其 重要 性 。 

该 步骤 的 结果 是 得 到 终端 用 户 的 需求 ， 这 些 需 求 明确 指 出 了 未 来 数据 仓库 的 理想 特性 和 
功能 。 需 求 以 分 析 型 的 需要 为 基础 ， 内 部 数据 源 系 统 和 可 用 的 外 部 数据 源 中 的 数据 可 以 满足 
这 些 需要 。 需 求 收集 过 程 希望 可 以 考虑 全 部 可 用 数据 ， 但 该 过 程 不 能 以 不 可 用 或 者 不 存在 的 
数据 为 基础 。 

ld et ts 具体 包括 : 

e 领导 、 经 理 人 、 组 织 机 构 中 决定 和 安排 最 终 数据 仓库 主题 的 其 他 决策 人 员 。 

rr ted at ret 

e。 数据 仓库 的 最 终 使 用 人 员 ， 他 们 负责 分 析 任 务 并 决定 分 析 主 题 的 细节 。 

除 采 访 以 外 ， 还 有 其 他 方法 可 用 于 从 数据 仓库 的 相关 人 员 处 明确 具体 需求 ， 如 小 组 讨论 、 提 
问 、 调 查 ， 或 观察 已 有 的 分 析 型 实践 以 了 解 用 户 利 用 这 些 数据 真正 做 的 事情 以 及 用 户 真 正 需 
要 的 数据 。 

收集 好 的 需求 应 该 有 明确 的 定义 并 以 书面 形式 进行 陈述 ， 然 后 利用 概念 数据 模型 技术 将 
需求 描述 成 一 个 概念 数据 模型 ,概念 数据 模型 技术 可 以 是 ER 建 模 ( 详 见 第 2 章 ) 或 维度 建 
模 〈 详 见 第 8 章 )。 

数据 仓库 需求 的 收集 和 定义 方法 通常 是 一 个 迭代 的 过 程 。 将 一 个 较 小 的 初始 需求 集合 进 
行 收集 、 定 义 并 且 可 视 化 描述 后 ， 就 可 以 进一步 与 开发 人 员 和 相关 人 员 讨 论 ， 继 而 将 讨论 结 ”[218| 
果 并 人 下 一 步 的 收集 、 和 定义 以 及 需求 可 视 化 的 迭代 过 程 中 ， 逐 步 扩大 初始 需求 集合 。 












开发 前 端 ({BI) 应 用 
(用 于 回 接 访问 ) 


[| 
© 
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即使 一 个 需求 集合 在 数据 仓库 的 需求 收集 、 定 义 以 及 可 闹 化 描述 步骤 中 都 得 到 了 一 致 认 
可 ， 它 仍然 有 可 能 受到 开发 过 程 中 其 他 步骤 的 影响 而 发 生 改 变 ， 如 图 7-9 所 示 。 


数据 仓库 需求 数据 仓库 建 模 


需求 收集 (逻辑 建 模 ) 
需求 定义 
需求 可 视 化 
(概念 建 异 ) 

开发 前 端 (Bl) 应 用 
(用 于 间接 访问 ) 





图 7-9 数据 仓库 需求 收集 、 定 义 以 及 可 视 化 描述 过 程 的 迭代 性 质 


得 到 数据 仓库 需求 集合 的 一 种 做 法 是 试图 在 一 个 单独 的 过 程 中 完成 所 有 需求 的 收集 、 定 
义 、 可 视 化 描述 操作 ， 然 后 与 开发 过 程 的 所 有 其 他 步骤 进行 整合 。 然 而 通常 更 推荐 的 是 另 一 
种 方法 ， 即 允许 在 数据 仓库 开发 过 程 中 的 每 个 步骤 完成 之 后 进行 完善 和 添加 。 图 7-9 中 的 虚 
线 摘 述 了 这 一 点 。 例 如 ， 我们 可 以 收集 、 定 勾 、 可 视 化 描述 一 个 初始 的 需求 集合 ， 继 而 创建 
一 个 初始 的 数据 仓库 模型 ， 而 其 他 需求 则 可 以 通过 一 系列 类 似 的 迭代 过 程 添加 进来 。 若 其 他 
步 又 (前端 应 用 或 实际 数据 库 使 用 ) 显示 需要 对 原来 的 需求 集合 进行 修改 、 扩 大 或 减 小 等 操 
作 ， 则 可 以 对 这 些 需求 进行 迭代 更 新 。 

每 次 需求 集合 发 生 改 变 时 ， 概 念 模型 就 要 相应 地 进行 改变 ， 需 求 的 改变 要 在 所 有 相关 步 
又 中 进行 传播 : 建 模 、 创建 数据 仓库 、 创建 ETL 架构 、 创 建 前 端 应 用 、 部 署 、 使 用 以 及 管 
理 和 维护 。 

所 有 数据 仓库 开发 步骤 都 不 允许 隐 式 地 改变 需求 。 例 如 ， 在 数据 仓库 的 创建 过 程 中 ， 不 
允许 开发 人 员 临 时 创建 需求 没有 涉及 的 新 数据 仓库 结构 。 相 反 ， 如 果 在 数据 仓库 创建 过 程 中 
发 现 有 新 的 结构 是 系统 确实 需要 用 到 的 (如 新 的 关系 表 或 表 中 新 的 列 )， 则 需要 将 需求 集合 
进行 扩展 ， 以 包含 这 些 新 结构 。 新 需求 集合 则 应 相应 地 反映 到 修改 后 的 可 视 化 描述 以 及 数据 
仓库 模型 中 去 。 只 有 这 样 ， 一 个 新 的 数据 仓库 结构 才能 得 以 实施 。 

得 到 数据 仓库 需求 的 过 程 ， 是 整个 数据 仓库 系统 开发 过 程 中 最 重要 的 步骤， 这 一 点 已 经 
得 到 了 广泛 认可 。 该 步骤 的 结果 决定 了 整个 数据 仓库 项 目的 成 功 与 否 。 如 果 该 步 又 不 能 成 功 
进行 ， 得 到 的 需求 就 不 能 正确 地 反映 系统 终端 用 户 的 分 析 要 求 ， 因 此 ， 最 终 得 到 的 数据 仓库 
就 不 能 满足 终端 用 户 的 分 析 要 求 。 


7.6.2 ”数据 仓库 建 模 


需求 收集 、 定 义 以 及 可 视 化 完成 之 后 的 第 一 个 步骤 ， 就 是 数据 仓库 建 模 (data warehouse 
modeling)。 我 们 使 用 术语 “数据 仓库 建 模 ”来 表示 由 数据 管理 软件 实现 的 数据 仓库 模型 。 
正如 第 1 章 中 所 述 ， 这 种 模型 也 称 为 逻辑 数据 建 模 或 实施 型 数据 建 模 ， 与 概念 数据 建 模 相 
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对 (概念 数据 模型 不 依赖 特定 数据 管理 软件 的 任何 逻辑 信息 ， 只 简单 地 将 需求 进行 可 视 化 
描述 ). 


7.6.3 创建 数据 仓库 


一 旦 数据 仓库 模型 建立 起 来 ， 下 一 步 就 是 创建 数据 仓库 ( creating the data warehouse ) - 
该 步骤 利用 数据 管理 软件 将 数据 仓库 模型 初始 化 为 一 个 内 容 为 空 的 实际 数据 仓库 。 数 据 仓 
库 通 常 被 建 模 为 关系 数据 库 ， 因 此 常常 会 使 用 到 关系 型 DBMS。 常 规 DBMS 软件 包 ， 如 
Microsoft SQL Server 或 Oracle 和 等， 都 可 以 用 于 实现 关系 型 数据 库 及 关系 型 数据 仓库 。 同 时 ， 
那些 专门 用 于 处 理 大 量 数据 的 DBMS 软件 包 (如 Teradata) 也 可 以 用 于 实现 数据 仓库 。 

创建 数据 仓库 是 一 个 直观 的 过 程 数据 仓库 开发 人 员 利 用 DBMS 的 功能 和 性 质 将 数据 
仓库 模型 实现 为 一 个 实际 的 功能 型 分 析 数 据 库 。 

与 数据 仓库 的 创建 过 程 类 似 、 数 据 集 市 也 可 以 利用 DBMS 软件 包 来 创建 。 在 某 些 情况 
下 ， 数 据 集 市 也 可 以 实现 为 “立方 体 ”， 使 用 一 种 与 关系 型 DBMS 不 同 的 数据 管理 技术 ( 详 
见 第 9 章 ) 来 创建 。 


7.6.4 创建 ETL 架构 


创建 ETL 架构 (creating ETL ingrastucture) 就 是 为 以 下 目的 创建 必要 的 程序 和 代码 ; 

e 从 操作 型 数据 源 中 自动 提取 相关 数据 . 

e 转换 提取 得 到 的 数据 ， 以 确保 数据 质量 并 将 其 结构 转换 成 模型 和 数据 仓库 的 相应 结构 。 

e 转换 后 数据 与 数据 仓库 的 无 缝 接 人 . 

ETT 本 TE 。 在 许 
多 情况 下 ， 组 织 机 构 有 多 个 独立 的 数据 源 ， 数 据 源 中 的 数据 存在 重复 现象 。 此 时 ， 创 建 ETL 
ne 虚 如 何 3| 入 数据 但 不 产生 多 余 的 数据 复制 ( 即 如 何 引 入 所 有 有 用 信息 ， 同 
时 避免 唯一 性 数据 质量 问题 ). 

由 于 需要 考虑 的 数据 细 计 5 数量 较 多 ， 因此 创建 ETL 架构 往往 是 数据 仓库 开发 过 程 中 最 
耗费 时 间 与 资源 的 部 分 。 


7.6.5 开发 前 端 (BI) 应 用 


开发 前 端 应 用 ( developing front-end/BI application) 的 过 程 就 是 设计 和 创建 可 供 终 端 
用 户 间 接 使 用 数据 仓库 的 应 用 。 大 部 分 数据 仓库 系统 中 都 包含 前 端 应 用 ， 也 称 为 商务 智能 
( business intelligence，BI) 应 用 。 数 据 仓 库 前 端 应 用 通常 包含 接口 (如 表单 ) 以 及 通过 菜单 
等 导航 机 制 得 到 的 报表 等 。 

如 图 7-8 所 示 ， 数 据 仓库 前 端 应 用 的 设计 和 创建 过 程 可 以 和 数据 仓库 的 创建 过 程 同 时 进 
行 。 例 如 ， 前 端 应 用 的 外 观 及 视觉 效果 、 各 种 组 件 (表单 和 报表 ) 的 个 数 及 其 功能 都 可 以 在 
数据 仓库 实现 之 前 确定 。 该 步骤 依据 的 是 数据 仓库 的 模型 和 需求 ， 模 型 和 需求 反映 了 终端 用 
户 需 要 系统 所 具有 的 特性 和 功能 。 当 然 ， 前 端 应 用 的 实际 创建 过 程 还 包括 将 该 应 用 连接 到 数 
据 仓 库 ， 该 过 程 需 在 数据 仓库 实现 后 才能 进行 。 


7.6.6 数据 仓库 部 署 
数据 仓库 及 其 前 端 应 用 实现 后 的 下 一 步 ， 就 是 数据 仓库 部 署 (data warehouse deployment)。 


Zell 
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该 步骤 就 是 将 数据 仓库 及 其 前 端 应 用 交 给 用 户 使 用 。 通 常 在 该 步骤 之 前 要 先 执 行 初始 叶 人 步 
又 ， 即 通过 ETL 架构 完成 数据 仓库 及 初始 数据 集 从 操作 型 数据 源 中 的 初始 导入。 


7.6.7 ”数据 仓库 使 用 


一 旦 数据 仓库 部 署 完成 ， 终 端 用 户 就 可 以 进行 数据 仓库 使 用 ( data warehouse use)。 数 
据 仓 库 的 使 用 即 检 索 数 据 仓 库 中 包含 的 数据 。 数 据 仓库 由 用 户 通过 前 端 应 用 进行 间接 使 用 ， 
也 可 以 通过 管理 数据 仓库 的 数据 管理 软件 语言 进行 直接 使 用 。 例 如 ， 关 系 型 数据 仓库 可 以 利 
用 SQL 语句 直接 查询 。 终 端 用 户 还 可 通过 所 谓 的 在 线 分 析 人 处 理 (OLAP) 工具 (或 BI 工具 ) 
对 数据 仓库 进行 特殊 的 分 析 查 询 ， 这 是 一 种 更 通用 的 数据 仓库 直接 使 用 方法 。 


“7.6.8 数据 仓库 管理 与 维护 


数据 仓库 管理 与 维护 ( data warehouse administration and maintenance) 活动 用 来 支持 终 
端 用 户 对 数据 仓库 的 使 用 。 与 操作 型 数据 库 的 管理 与 维护 活动 类 似 ， 数 据 仓库 的 管理 与 维护 
活动 包括 各 类 技术 问题 的 处 理 ， 如 保证 数据 仓库 的 信息 安全 、 确 保 数 据 仓库 中 的 内 容 拥 有 充 
分 的 硬盘 空间 、 实 现 数据 的 备份 与 恢复 。 


7.7 数据 仓库 的 新 版 本 


通常 来 说 ， 数 据 仓库 在 投入 使 用 之 后 就 会 有 男 外 的 新 版 本 出 现 。 新 的 数据 仓库 需要 根据 
相同 的 开发 步骤 来 创建 ， 如 图 7-10 所 示 。 






创建 ETL 架构 


创建 数据 仓库 | ”| 数据 仓库 部 署 
开发 前 端 (BI) 应 用 
(用 于 间接 访问 ) 


图 7-10 新 版 本 数据 仓库 的 开发 


和 原始 版 的 数据 仓库 一 样 ， 新 版 本 数据 仓库 的 开发 过 程 同样 需要 从 需求 的 收集 、 定 义 、 
可 视 化 描述 步骤 开始 。 当 然 ， 与 原始 版 数据 仓库 不 同 的 是 ， 后 面 版 本 的 数据 仓库 并 不 需要 从 
头 开始 收集 需求 。 原 来 的 需求 集合 可 以 作为 添加 和 修改 的 基础 ， 许 多 添加 和 修改 都 来 自 于 终 
端 用 户 在 前 面 版 本 使 用 过 程 中 的 观察 和 发 现 ， 进 而 指明 了 可 以 通过 何 种 方式 对 数据 仓库 进行 
改善 和 扩展 。 还 有 一 些 新 的 需求 则 可 能 源 自 操作 型 数据 源 的 改变 或 是 内 部 技术 的 改变 。 和 其 
他 任何 一 种 信息 系统 一 样 ， 数 据 仓 库 系 统 也 不 可 避免 地 会 不 断 有 新 版 本 出 现 。 

本 章 给 出 了 关于 数据 仓库 基本 概念 的 一 个 概述 ， 第 8 章 与 第 9 章 将 会 给 出 更 多 的 细节 。 
第 8 章 将 重点 讨论 数据 仓库 建 模 ， 第 9 章 则 包括 数据 仓库 新 版 本 开发 的 相关 问题 。 
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描述 操作 型 与 分 析 型 数据 在 数据 细节 层次 上 的 差别 。 
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描述 操作 型 与 分 析 型 数据 在 数据 面向 对 象 上 的 差别 。 

解释 下 面 数据 仓库 中 各 部 分 的 定义 : 结构 化 存储 ， 集 成 性 ， 面 向 主题 ， 企 业 范围 ， 历 史 性 ， 时 


变性 ， 为 可 分 析 信 息 的 检索 而 开发 .可 能 包括 最 细 粒 度 的 细节 数据 或 汇总 数据 (或 二 者 兼 有 ) 。 
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开发 数据 仓库 的 步骤 是 什么 ? 


简要 描述 创建 数据 仓库 的 过 程 。 
简要 描述 创建 ETL 架构 的 过 程 。 


数据 仓库 部 署 过 程 如 何 进行 ? 
数据 仓库 的 使 用 包括 哪些 方面 ? 


给 出 一 个 数据 仓库 管理 与 维护 活动 的 例子 。 
数据 仓库 初始 版 本 与 后 续 新 版 本 的 开发 有 什么 异同 ? 


非 独 立 数据 集 市 与 独立 数据 集 市 的 区 别 是 什么 ? 


解释 数据 仓库 需求 收集 、 定 义 及 可 视 化 描述 过 程 中 的 迭代 特性 。 


简要 描述 开发 数据 仓库 前 端 (BI) 应 用 的 过 程 。 
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8.1 引言 


在 本 书 的 前 面部 分 ， 我 们 详细 介绍 了 操作 型 数据 库 的 建 模 过 程 。 第 2 章 描述 了 ER 建 模 
的 细节 ， 它 是 一 种 可 视 化 数据 库 需 求 的 主要 技术 ， 大 量 用 于 操作 型 数据 库 的 概念 建 模 。 第 3 
章 讲解 了 作为 操作 型 数据 库 逻 辑 建 模 标准 方法 的 关系 建 模 。 这 两 种 技术 都 可 用 于 数据 仓库 和 
数据 集 市 的 开发 。 此 外 ， 在 数据 仓库 和 数据 集 市 的 建 模 实践 中 ， 还 经 常 使 用 一 种 专门 针对 分 
析 型 数据 库 设计 的 技术 维度 建 模 技 术 。 

本 章 首 先 详细 介绍 维度 建 模 ， 接 着 介绍 最 常用 的 数据 仓库 建 模 策略 ， 包 括 如 何 利 用 ER 
建 模 、 关 系 建 模 和 维度 建 模 . 


8.2 ”维度 建 模 基本 概念 


维度 建 模 ( dimensional modeling) 是 用 于 面向 主题 的 分 析 型 数据 库 ( 如 数据 仓库 、 数 据 
集 市 ) 设计 的 一 套数 据 设 计 方 法 。 通 常 将 维度 建 模 作为 一 种 关系 数据 建 模 技 术 ， 需 要 设计 包 
含 主 码 的 关系 表 ， 且 关系 表 之 间 通 过 外 码 相 互 连 接 ， 同 时 满足 标准 的 关系 完整 性 约束 。 除 了 
使 用 常规 的 关系 概念 ( 主 码 、 外 码 、 完 整 性 约束 等 ) 处， 维度 建 模 的 不 同 之 处 在 于 ， 它 有 为 
外 两 种 类 型 的 表 维度 和 事实 。 

e 维度 表 ( dimensional table/dimension) 包含 对 分 析 主 题 所 属 类 型 的 描述 ， 如 商业 、 组 
织 或 企业 。 维 度 表 中 的 列 通 澡 包含 文本 型 的 描述 信息 (如 产品 品牌 、 产 品 颜色 、 顾 客 
性 别 、 顾 客 受 教育 程度 )， 但 也 可 以 是 数值 型 的 (如 产品 重量 、 顾 客 收 入 水 平 )。 这 些 
言 息 提 供 了 对 该 主题 进行 分 析 的 基础 。 例 如 ， 如 果 对 主题 商业 进行 销售 方面 的 分 析 ， 

则 可 以 对 产品 品牌 、 顾 客 性 别 、 顾 客 收 入 水 平等 进行 分 析 。 
e 事实 表 ( fact table) 包含 对 于 所 分 析 主 题 的 度量 。 另 外 ， 事 实 表 还 包含 与 维度 表 关 
225| 联 的 外 码 。 事 实 表 中 的 度量 通常 是 数值 型 的 ， 用 于 数学 计算 和 定量 分 析 。 例 如 ， 如 
果 商 业 分 析 的 主题 是 销售 ， 那 么 销售 事实 表 中 的 一 个 度量 可 能 是 销售 金额 。 可 以 使 
用 不 同 的 数学 晒 数 对 各 种 不 同 维度 的 列 计 算 销 售 金 额 。 例 如 ， 可 以 对 每 种 产品 品牌 、 

顾客 性 别 、 顾 客 收 入 水 平等 计算 总 销售 额 和 平均 销售 额 。 
关系 维度 建 模 的 结果 是 一 个 包含 事实 和 维度 的 维度 关系 模式 ， 如 图 8-1 所 示 。 维 度 模 式 

通常 是 星 形 模式 (star schema ) 。 

维度 表 包 含 一 个 主 码 和 多 种 属性 ， 这 些 属性 用 于 事实 表 中 的 度量 分 析 。 事 实 表 包含 事实 
度量 属性 和 连接 事实 表 与 维度 表 的 外 码 。 在 本 书 中 ,我 们 将 事实 表 用 加 粗 的 边框 表示 ， 以 
便 和 维度 表 区 分 开 来 。 事 实 表 的 主 码 是 一 个 由 外 码 列 和 (或 ) 事实 表 中 其 他 列 构 成 的 组 合 码 
(将 在 本 章 后 面 的 部 分 详细 说 明 ) 。 
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维度 1 维度 2 
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图 8-1 一 个 维度 模型 ( 星 形 模 式 ) 


尺 管事 实 表 (或 者 任意 表 ) 中 列 的 顺序 都 可 以 任意 排列 ,但 出 于 可 读 性 的 原因 ， 在 本 书 
的 星 形 模式 的 例子 中 ,我 们 总 是 将 事实 表 中 的 度量 放 到 表 的 最 后 。 


8.3 初始 实例 : 基于 单个 数据 源 的 维度 模型 


下 面 的 例子 说 明了 维度 建 模 的 基本 概念 。 该 例子 使 用 本 书 第 2 章 和 第 3 章 曾 用 过 的 
ZAGI 零售 公司 销售 部 门 的 虚拟 场景 。 为 了 方便 ， 我 们 重新 把 ZAGI 零售 公司 销售 部 门 的 数 
据 库 及 其 中 的 记录 列举 出 来 。 

图 8-2 (与 图 3-32 相同 ) 展示 了 ZAGI 零售 公司 销售 部 门 数据 库 的 ER 图 和 所 得 到 的 关 
系 模式 。 


ProguctName vendorID vendorName 
REGION 
PRODUCT 1 VENDOR 


CATEGORY 


SS (ee ) > 
El 


SALES > -1 
TRANSACTION CUSTOMER 
Cw) TDCole (>》 





图 8-2 ZAGI 和 零售 公司 销售 部 门 数据 库 : ER 图 和 所 得 到 的 关系 模式 
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图 8-2 ( 续 ) 


图 8-3 (与 图 3-33 相同 ) 展示 了 ZAGI 零售 公司 销售 部 门 数 据 库 中 的 记录 。 
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图 8-3 图 8-2 所 示 的 ZAGI 零售 公司 销售 部 门 数据 库 的 数据 记录 


基于 图 8-2 和 图 8-3 中 所 示 的 操作 型 数据 库 ，ZAGI 零售 公 司 决 定 使 用 维度 建 模 技 术 来 
设计 一 个 分 析 型 数据 库 ， 该 数据 库 要 分 析 的 主题 是 销售 。 该 过 程 的 结果 是 图 8-4 所 示 的 星 形 
模式 。 

在 星 形 模式 中 ， 选 定 的 分 析 主 题 用 事实 表 来 表示 。 在 本 例 中 ， 选 定 的 分 析 主 题 (销售 ) 
用 SALES 事实 表 来 表示 。 

设计 星 形 模式 时 ， 需 要 考虑 使 用 事实 表 中 的 哪些 维度 来 表示 选 定 的 主题 。 对 于 每 个 要 考 
虑 的 维度 ， 需 要 回答 以 下 两 个 问题 : 

问题 1: 该 维度 对 于 选 定 主题 的 分 析 是 否 有 用 ? 

问题 2， 该 维度 是 否 可 以 基于 已 有 的 数据 源 来 创建 ? 
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在 这 个 特殊 的 例子 中 ， 可 用 的 数据 源 只 有 ZAGI 零售 公司 销售 部 门 数 据 库 ， 如 图 8-2 和 图 
8-3 所 示 。 

图 8-4 中 的 星 形 模式 包含 四 个 维度 ,分别 命名 为 PRODUCT 、STORE、CUSTOMER 和 
CALENDAR。 对 于 每 个 维度 ， 上 面 的 问题 1 和 问题 2 的 回答 都 是 是 。 


CALENDAR 维度 PRODUCT 维度 


CalendarKey ProductKey 
FullDate ProductID 
DayOfWeek ProductName 
DayOfMonth SALES 事实 表 ProductPrice 


Month CalendarKey (FK) ProductVendorName 


StoreKkey (FK) productCategoryName 


Quarter 


rear ProductKey (FK) 


CustomerKey (FK) 
DollarsSold CUSTOMER 维度 


StoreKey UnitsSold 


CustomerKey 
StorelD CustomerID 
StoreZip CustomerName 
StoreRegionNaeme CustomerZip 





图 8-4 ZAGI 零售 公司 分 析 型 数据 库 的 维度 模型 ， 分 析 的 主题 是 销售 


特别 地 ， 当 考虑 第 一 个 问题 时 ， 维 度 建 模 团 队 认 为 ， 根 据 产品 、 顾 客 、 商 店 和 日 期 对 销 
售 额 进行 分 析 是 有 用 的 。 因 此 ， 该 团队 决定 根据 这 些 分 析 的 领域 (产品 、 顾 客 、 商 店 和 日 期 ) 
来 考虑 创建 维度 。 

考虑 第 二 个 问题 时 ， 该 团队 进一步 确认 ， 对 于 正在 考虑 之 中 的 每 个 维度 ， 已 有 的 操 
作 型 数据 库 都 可 以 提供 数据 来 源 。 因 此 ， 该 团队 决定 创建 所 有 四 个 维度 : PRODUCT、 
CUSTOMER、 STORE 和 DATE。 

维度 PRODUCT 是 将 操作 型 数据 库 中 的 表 PRODUCT 与 表 VENDOR 和 CATEGORY 连 
接 得 到 的 ， 这 是 为 了 包含 供应 商 名 称 和 类 别名 称 。 它 使 我 们 既 可 以 按照 单个 产品 来 分 析 销 售 
额 ， 也 可 以 按照 产品 的 供应 商 和 类 别 来 分 析 销 售 额 。 

维度 CUSTOMER 与 操作 型 数据 库 中 的 表 CUSTOMER 相同 。 它 使 我 们 既 可 以 按照 单个 
顾客 来 分 析 销 售 额 ， 也 可 以 按照 顾客 的 邮政 编码 来 分 析 销 售 额 。 

维度 STORE 是 将 操作 型 数据 库 中 的 表 STORE 与 表 REGION 连接 得 到 的 ， 这 是 为 了 包 
含 地 区 名 称 。 它 使 我 们 既 可 以 按照 单个 商店 来 分 析 销 售 额 ， 也 可 以 按照 销售 地 区 和 邮政 编码 
来 分 析 销 售 额 。 

维度 CALENDAR 记录 了 操作 型 数据 库 中 表 SALESTRANSACTION 中 的 列 TDate 的 日 
期 范围 。 与 日 期 相关 的 分 析 是 最 常见 的 主题 分 析 类 型 之 一 。 例 如 ， 按 照 月 或 者 季度 来 分 析 销 
售 额 是 一 种 常见 的 与 日 期 相关 的 分 析 。 实 际 上 ， 每 个 星 形 模式 中 都 包括 一 个 与 日 期 信息 相关 
的 维度 。 在 本 例 中 ， 维度 CALENDAR 充当 了 该 角色 。 将 完整 的 日 期 分 解 成 各 种 与 日 期 相关 
的 单个 成 分 (如 季度 、 月 份 、 年 份 和 周 中 的 天 ) 来 扩展 维度 CALENDAR 的 结构 ， 这 样 将 有 
助 于 分 析 。 

图 8-5 为 图 8-4 所 示 的 星 形 模式 填充 后 的 表 。 图 8-5 每 个 表 中 的 数据 都 来 自 图 8-3 所 示 
的 操作 型 数据 库 中 的 数据 源 (ZAGI 零售 公司 销售 部 门 数 据 库 )。 

SALES 事实 表 中 的 每 条 记录 代表 某 一 天 某 一 顾客 在 某 一 商店 购买 某 一 产品 的 购买 记录 。 

在 图 8-5 中 ， 我 们 没有 给 出 SALES 事实 表 的 主 码 。 本 章 后 面 将 会 讨论 事实 表 的 主 码 ， 
并 给 出 SALES 事实 表 的 主 码 。 
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CALENDAR 维度 PRODUCT 维度 
CalendarKey | FullDate | DayOf DayOf | Month 
Week Month 
| | Pacilica Gear | Camping 
2 | Easy Boot! | $70 | Mountan King | Footwear 
3 3X3 Cosy Sock | $15 | Mountan King | Foorwear | 
P| 
StoreKey | StorelD | StoreZip | StoreRegionName a ops Dura Boot | $90 Pacilwa Goer | Footwear | 
5 5X5 Tiny Tent | $150 Mountain King | Camping 
6 Texe Biggy Tent | $250 Mountain King | Camping 
SALES 事实 表 




















CustomerName | CustomerZip 
Tina . 60137 















CalendarKey | StoreKey | ProductKey | CustomerKey | DollarsSold | UnitsSold | 
: 页 - 

Ce : 
: ed | 





















图 8-5 ZAGI 零售 公司 用 于 分 析 销 售 的 维度 模型 ， 该 维度 模型 已 经 填充 了 来 自 操作 型 数据 源 的 数据 


8.4 维度 特性 、 事 实 特性 及 初始 实例 分 析 


在 一 个 典型 的 设计 良好 的 星 形 模式 中 ， 任 何 维度 表 中 的 记录 ( 行 ) 数 都 小 于 事实 表 中 的 
记录 数 。 典 型 的 维度 包含 相对 静态 的 数据 ， 而 事实 表 中 的 记录 会 不 断 添 加 ， 表 的 规模 会 迅速 
增长 。 因 此 ， 在 一 个 典型 的 维度 建 模 的 分 析 型 数据 库 中 ,， 维度 表 的 记录 数 要 上 比 事实 表 少 几 个 

例如 ， 在 ZAGI 零售 公司 的 例子 中 ， 如 果 图 8-4 和 图 8-5 所 示 的 维度 建 模 的 分 析 型 数据 
库 中 保存 了 10 年 的 有 价值 数据 ， 那 么 维度 CALENDAR 将 会 有 3652 条 记录 (365 x 10+2 
天 ， 假设 这 10 年 间 有 两 个 闽 年 ， 每 个 闽 年 多 加 1 天 )。 假设 ZAGI 零售 公司 有 100 家 商店 、 
100 000 位 顾客 和 5000 种 不 同 的 商品 ， 则 维度 STORE、CUSTOMER 和 PRODUCT 将 分 别 
有 100、100 000 和 5000 条 记录 。 即 使 保守 估计 ， 每 家 商店 每 天 只 有 200 位 顾客 有 旦 平均 购 头 
3 种 产品 ， 那 么 事实 表 将 会 有 219 120 000 条 记录 (200 x3 x100x3652 条 记录 )， 这 上 比 任何 
一 个 维度 的 记录 数 都 要 高 出 几 个 数量 级 。 

在 一 个 星 形 模式 中 ， 所 有 维度 表 通 常 都 被 分 配 了 一 个 简单 的 、 非 复合 的 、 由 系统 生成 的 
码 ， 称 为 代理 码 ( surrogate key)。 在 图 8-4 中 ， 维 度 CALENDAR 的 代理 码 为 CalendarKey， 
维度 PRODUCT 的 代理 码 为 ProductKey， 维 度 STORE 的 代理 码 为 StoreKey， 维 度 
CUSTOMER 的 代理 码 为 CustomerKey。 这 些 码 的 值 都 是 简单 的 目 动 分 配 的 整数 ， 如 图 8-5 
所 示 。 代 理 码 的 值 没 有 任何 意义 或 者 额外 目的 ， 它 只 是 在 维度 模型 中 为 每 个 维度 增添 一 列 
作为 主 码 ， 而 不 是 采用 原来 的 操作 码 。 例 如 ， 不 使 用 操作 型 数据 库 中 的 表 PRODUCT 的 主 
码 ProductID 作为 维度 PRODUCT 的 主 码 ， 而 是 创建 了 新 的 代理 码 列 。 创 建 代理 主 码 (如 
ProductKey) 而 不 使 用 操作 型 主 码 (如 ProductID) 作为 维度 的 主 码 ， 主 要 原因 之 一 是 为 了 能 
够 处 理 所 谓 的 缓慢 变化 的 维度 。 我 们 将 会 在 本 章 的 后 面部 分 讲述 缓慢 变化 的 维度 。 

在 图 8-4 和 图 8-5 所 示 的 维度 建 模 的 数据 库 中 ，ZAGI 零 售 公 司 可 以 很 容易 地 创建 如 下 
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分 析 型 查询 。 


QueryA : 比较 已 售 出 商品 的 数量 ， 商 品 为 2013 年 第 一 季度 到 第 二 季度 之 间 每 个 周 六 ， 


由 Tristate 地 区 的 Pacifica Gear 供应 商 供 货 的 Camping 类 所 有 商品 的 售 出 数量 。 


在 维度 建 模 的 数据 库 中 ， 这 样 的 查询 可 使 用 SQL 语句 或 所 谓 的 OLAP/BI 工 具 ( 详 见 第 


9 章 ) 直接 处 理 。 


首先 考虑 下 面 几 种 使 用 维度 数据 库 得 到 的 QueryA 的 SQL 版 本 ( 见 图 8-4 和 图 8-5 ) 。 


SQL 


Query A- 维度 版 本 (使 用 图 8-5 ): 


SELECT SUM(SA.UnitsSold) 


FROM 


入 


AND 
AND 
AND 
AND 
AND 
AND 
AND 
AND 
GROUP 


现在 考虑 下 面 几 种 使 用 非 维 度数 据 库 得 到 的 QueryA 的 SQL 版 本 ( 见 图 8-2 和 图 8-3 )。 在 


P.ProductCategoryName 
PpP.ProductVendorName 
C.DayofWeek 

CAEFY 


Calendar C 


Store Ss 

Product P 

Sales SA 

C.CalendarKey = SA.CalendarKey 
S.StoreKey = SA.StoreKkey 
P.ProductKey = SA.Productkey 
PpP.ProductVendorName 己 :Pacitica Gear' 
P.ProductCategoryName = 'Camping' 
S.StoreRegionName 和 'Tristate' 
C.DayofWeek = 'Saturday'! 
C.Year = 2013 

COE LN (“Ql “OQ2 } 
BY 


P.ProductCategoryName, 
Pp.ProductVendorName, 
C.DayofWeerk, 

CQLEE: 


下 面 的 例子 中 ， 我 们 将 使 用 这 些 函 数 从 日 期 中 提取 年 份 、 季 度 和 星期 ” 。 
SQLQuery A 非 维度 版 本 (使 用 图 8-3 ): 


SELECT SUM( SV.NoOfItems ) 


FROM 


为 简化 该 实例 ， 本 书 使 用 通用 的 EXTRACTYEAR(Date)、EXTRACTQUARTER(Date) 和 EXTRACTWEEK- 
DAY(Date) 函数 。 实 际 上 ， 不 同 的 DBMS 中 用 于 提取 年 份 、 季 度 和 星期 的 SQL 函数 的 语法 和 复杂 度 是 不 


C.CategoryName 
V.VvendorName 
EXTRACTWEEKDAY (ST .Date) 
EXTRACTQUARTER (ST .Date) 


Region R 

Store S 

SalesTransaction ST 

SoldVia SV 

Product P 

Vendor V 

Category C 

R.RegionID = S.RegionID 
S.StoreID = ST.StoreID 
ST. Tid = SV Tid 


SV.ProductiID Pp.Product1IiD 


同 的 。 
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i 有 二 部 分 分 其 型 开 据 订 


AND EE.VendorID = V.VendorID 

AND Pp.CateoryID = C.CategoryID 

AND VV.VendorName Ee 'Pacifica Gear' 

RND CC.CategoryName = 'Camping' 

AND R.RegionName s 'Tristate' 

AND EXTRACTWEEKDAY (St .Date) = 'Saturday' 
AND EXTRACTYEAR (ST .Date,) = 2013 

AND EXTRACTQUARTER(ST.Date) IN ( ‘'Q1', 'Q2°' |) 
GROUP BY 


C.CategoryName, 

V .VendorName, 
EXTRACTWEEKDAY (ST .Date), 
EXTRACTQUARTER (ST .Date)., 


re A 考察 分 析 人 员 在 进行 查询 时 维度 模型 所 具有 的 优势 。 注 意 ，SQL Query 

- 维度 版 本 将 事实 表 及 其 3 个 维度 进行 连接 ， 而 SQL Query A- 非 维 度 模 型 将 7 张 表 进行 连 
ie err 季度 和 星期 。 

这 个 小 例子 证 明 ， 即 使 对 于 维度 模型 是 基于 单一 数据 源 建立 起 来 的 简单 情况 ,维度 模型 
数据 库 上 的 分 析 型 查询 也 要 比 同 等 的 非 维度 数据 库 上 的 查询 更 容易 建立 。 在 分 析 所 需 的 数据 
在 于 多 个 数据 源 的 情况 下 ， 使 用 维度 模型 数据 进行 分 析 的 便利 则 更 为 明显 。 可 分 析 的 有 用 
数据 仔 在 于 一 个 组 织 机 构 的 多 个 独立 数据 系统 及 存储 设备 中 的 情况 是 十 分 常见 的 。 下 面 的 实 
例 将 说 明 维 度 建 模 在 这 些 场景 中 的 使 用 情况 。 


8.5 扩展 实例 : 基于 多 个 数据 源 的 维度 模型 


图 8-4 和 图 8-5 给 出 的 初始 维度 建 模 实例 描述 的 是 基于 单一 数据 源 (ZAGI 零售 公司 销 
售 部 门 数据 库 ， 见 图 8-2 和 图 8-3 ) 的 分 析 型 数据 库 。 
更 为 一 般 地 ， 数 据 仓 库 与 数据 集 市 从 多 个 源 中 得 到 数据 。 下 面 将 使 用 ZAGI 零售 公司 的 
场景 对 初始 实例 进行 扩展 ， 话 加 了 两 个 数据 源 : 
e 在 ZAGI 零 售 公 司 中 ， 除 了 图 8-2 以 及 图 8-3 所 示 的 销售 部 门 数据 库 ， 设 备 部 门 还 有 
一 个 数据 库 用 于 保存 如 下 有 关 每 个 商店 物理 细节 的 信息 : 商店 规模 、 商 店 布局 、 商 
店 结账 系统 。ZAGI 零售 公司 设备 部 门 数 据 库 如 图 8-6 所 示 。 分 析 人 员 认 为 商店 的 物 
理 细节 可 以 作为 分 析 销 售 数据 的 一 个 有 用 方面 ， 因 此 同样 对 维度 模型 进行 了 扩展 来 
说 明 该 数据 . 
e ZAGI 和 零售 公司 分 析 人 员 认 为 用 户 信 息 统计 数据 可 以 作为 销售 数据 分 析 的 另 一 个 有 用 
方面 。ZAGI 零售 公司 任何 一 个 操作 型 数据 库 中 都 未 包含 用 户 信息 统计 的 相关 数据 。 
因而 ，ZAGI 零售 公司 从 一 个 市 场 研究 公 司 获 得 顾客 的 用 户 信息 统计 数据 。 所 得 的 外 
部 数据 源 顾客 用 户 信息 数据 表 如 图 8-7 所 示 。 该 外 部 数据 源 可 用 于 进一步 扩展 维度 
图 8-8 给 出 了 一 个 扩展 维度 模型 的 例子 ,该 例子 基于 三 个 不 同 的 数据 源 : 两 个 内 部 的 操 
作 型 数据 库 (图 8-2 与 图 8-3 所 示 的 ZAGI 零售 公司 销售 部 门 数 据 库 、 图 8-6 所 示 的 ZAGI 
零售 公司 设备 部 门 数据 库 ) 以 及 一 个 外 部 数据 源 (图 8-7 所 示 的 顾客 信息 统计 数据 表 )。 注 
意 ，ZAGI 零 售 公 司 设备 部 门 数 据 库 使 得 STORE 维度 新 增 了 列 StoreSize 、StoreCSystem 以 及 
StoreLayout。 同 时 还 要 注意 ， 外 部 数据 源 顾客 信息 统计 数据 表 使 得 维度 CUSTOMER 新 增 了 列 
CustomerGender 、CustomerMaritalStatus 、CustomerEducationLevel 以 及 CustomerCreditScore。 
图 8-9 给 出 了 图 8-8 中 维度 模型 对 应 的 表 。 
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图 8-6 ZAGI 零售 公司 设备 部 门 数据 库 ER 模型 、 关 系 模型 和 表 


Gender | Marital | Education Credit 
Status | Level Score 


CUSTOMER TABLE 


CustomeriD | Customer 
Name 
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图 8-7 


CALENDAR 
CalendarKey 







Quarter 
Year 





STORE 


StoreKey CustomerKey 
StoreID CustomerID 
StoreZip CustomerName 
StoreRegionName CustomerZip 
StoreSize CustomerGender 


StoreCSystem 
StoreLayout 








CalendarKey iFk) 
StoreKey (Fk) 
ProductKey (Fk) 


CustomerKey (Fk) 
DollarsSold 
UnitsSold 


04 ay |Mae |Snge [MenSoroorlos0 | 


顾客 用 户 数据 表 (〈 从 一 个 市 场 研究 公司 处 得 到 的 外 部 源 ) 


FullDate ProductID 
DayOfWeek productName 
DayOfMonth SALES 事实 表 ProductPrice 

Month ProductVendorName 










PRODUCT 
ProductKey 









ProductCategoryName 





CUSTOMER 









CustomerMaritalStatus 
CustomerEducationLevel 
CustomerCreditScore 






图 8-8 ZAGI 零售 公司 销售 数据 分 析 的 扩展 维度 模型 ， 基 于 多 个 数据 源 建 立 


现在 ZAGI 零售 公司 可 以 考虑 包含 更 多 分 析 因 素 的 更 为 精细 的 分 析 问 题 。 例 如 ， 考 虑 下 
面 几 个 问题 。 
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CALENDAR 维度 PRODUCT 维度 

CalendarKey | FullDate | DayOf DayOf | Month | Qtr | Year ProductKey | ProductID | Product Product | Product Product 
Week Month 本 Name Price Vendor Category 
111/2013 | Tuesday January | OQ1 | 2013 Name me 
112/2013| Wednesday | 2 January | Qi 1 2013 a Kl Cr Neg 





有 Tie B150 | ownion Krg |Canprg 





STORE 维度 








StoreRegion 
Name 


StoreKey | StorelD StoreZip 














: A 
1 LS1 | 80600 Chicagoland 
2 D2 160605 | Chicagoland 35000 | Selt Service | Traditional 
| 2 


| Sd 35400 | Tnstate | 55000 | Mixad 
























Tradilional 





CUSTOMER 维度 


CustomeriD | | Customer | Customer 








1 
Customer | Customer Customer 






| CustomerKey 




































| Name Zip Gender | MaritalStatus | EducationLevel 
[ ! 1-2-333 I Tina 60137 a rr 
3 3.4.555 Pam 35401 





















SALES 事实 表 
CalendarKey | StoreKey | ProductKey CustomerKey | DollarsSold | UnitsSold 
| 1 $100 1 | 
| 2 2 2 $70 1 | 
2 i I $75 5 
E E 0 | 











图 8-9 为 ZAGI 零售 公司 销售 记录 分 析 所 建立 的 扩展 维度 模型 ， 数 据 来 自 多 个 数据 源 


Query B : 比较 已 售 出 商品 的 数量 ， 商 品 为 2013 年 第 一 季度 到 第 二 季度 之 间 每 个 周 六 
在 Modern 商店 售 出 ， 由 Tristate 地 区 的 Pacifica Gear 供应 商 供 货 的 Camping 类 且 出 售 给 男 
性 顾客 的 所 有 商品 。 

为 了 从 操作 型 数据 源 中 获得 Query B 的 答案 ， 用 户 需要 跨越 所 有 3 个 操作 型 数据 源 进行 
查询 ， 然 后 将 结果 结合 起 来 获得 最 后 的 答案 。 

使 用 图 8-9 所 示 的 维度 模型 来 获得 Query B 的 答案 将 更 为 直接 。SQL Query B- 维度 版 本 
包括 SQL Query A 维度 版 本 的 一 个 简单 扩展 。 

SQL Query B- 维度 版 本 (使 用 图 8-9 ): 


SELECT SUM(SA.UnitsSold) 
P.ProductCategoryName 


P.ProductVendorName 
C.Dayofweek 

pF Gt 

FROM 
Calendar C 

Store S 

Product P 

EF Customer CU 

Sales SA 

WHERE 


C.CalendarKey = SA.Calendarkey 
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AND S.Storekey = SA.StoreKey 

AND P.ProductKey = SA,ProductKey 

AND CU.CustomerKey = SA.Customerkey 

AND Pp.ProductVendorName 'Pacifica Gear! 


AND P.ProductCategoryName = 'Camping' 

AND S.StoreRegionName = 'Tristate' 
AND C.DayofWeek = 'Saturday' 
AND C.Year 二 2 和 33 

AND CC.,Qtr LN WN ME “QZ2™ 1 
AND S.StoreLayout Modern 

AND CU.Gender = 'Male' 

GROUP BY 


P.ProductCategoryName, 
P.ProductVendorName, 
C.DayofWeek, 

COE 


对 使 用 维度 建 模 的 数据 查询 ， 如 上 文 的 Query B， 可 以 利用 BLOLAP 工具 由 更 简单 的 
版 本 实现 (如 第 9 章 所 述 ) 。 


8.6 ”其 他 可 能 的 事实 属性 

正如 本 章 前 面部 分 所 讨论 的 ， 事 实 表 包含 了 将 表 连 接 到 维度 表 的 外 码 以 及 与 分 析 主 题 
相关 的 度量 。 例 如， 如 采 业 务 分 析 的 主题 是 销售 ， 销 售 事实 表 中 的 度量 通常 是 销售 金额 和 
数量 。 在 某 些 情况 中 ， 除 了 与 分 析 主 题 相关 的 度量 ， 事 实 表 还 包含 其 他 非 度 量 的 属性 ， 如 
图 8-10 给 出 的 例子 。SUBJECT 事实 表 中 ,“ 其 他 可 能 度量 ”表明 事实 表 可 以 包含 其 他 可 能 
的 非 度量 属性 - 





维度 1 维度 2 
DiKey (PK) D2Key {PK) 
DiAttributel D2Arttributel 
DiAttribute2 D2Attribute2 
SUBJECT 事实 表 ee 
DiliAttributeLast DiKey (FK) D2AttributeLast 
D2Key (FkK) 
(FXKS) 
维度 jit1, i+2 其 他 可 能 度量 维度 
FactMeasurel 
DnKey (PK) 















DnAttributel 
DnAttrnbute2 





DnAttributeLast 


| ee 


图 8-10 事实 表 包 含 额外 属性 的 维度 模型 ( 星 形 模式 ) 


出 现在 事实 表 中 的 两 种 最 典型 的 其 他 属性 是 事务 标识 码 ( transaction identifier) 以 及 事 
务 时 间 (transaction time )。 下 和 面 将 用 ZAGI 零售 公司 的 例子 说 明 这 两 种 属性 。 


8.7 事实 表 中 的 事务 标识 码 

首先 ， 我 们 将 说 明 事 务 标 识 码 的 概念 。 注 意图 8-2 与 图 8-3 中 所 示 的 ZAGI 零售 公司 销 
售 部 门 数据 库 ，SALES TRANSACTION 关系 有 一 个 表示 事务 标识 码 的 列 TID。TID 值 乍 一 
看 并 没有 任何 分 析 价 值 ， 例 如 ， 分 析 TID 值 以 偶数 结尾 的 销售 以 及 TID 值 以 奇数 结尾 的 销 
售 并 不 能 提供 任何 有 价值 的 商业 见解 。 然 而， 对 某 些 特定 类 型 的 分 析 ，TID 值 可 以 提供 其 他 
见解 。 例 如 ， 在 ZAGI 零售 公司 的 情景 中 ，TID 值 可 以 提供 有 关 哪 些 产品 在 相同 的 交易 事务 
中 被 出 售 的 信息 ， 这 样 的 信息 对 很 多 分 析 任务 都 有 用 。 有 一 种 分 析 是 试 着 建立 那些 经 常 被 一 
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起 出 售 的 产品 之 间 的 关联 ， 这 种 分 析 一 般 称 为 购物 篮 数据 分 析 (又 称 为 “关联 规则 挖掘 ”或 
“关联 性 分 组 ”， 见 附录 A)。 维 度 模型 中 包含 了 TID 后 ， 事务 分 析 人 员 便 可 使 用 这 种 分 析 。 

一 旦 决定 在 维度 模型 中 包含 TID ， 剩 下 的 问题 则 变 成: TID 应 该 放 在 星 形 模式 中 的 什 
么 位 置 ? 初 看 之 下 ， 可 以 创建 一 个 单独 的 TRANSACTION 维度 ， 该 维度 包含 TID 属性 。 然 
而 ， 正 如 本 章 前 面 所 述 ， 通 常 在 一 个 设计 合理 的 星 形 模式 中 ， 与 事实 表 的 记录 ( 行 ) 数 比 起 
来 ， 每 个 维度 表 中 的 记录 ( 行 ) 数 要 小 得 多 。 如 果 创 建 一 个 单独 的 TANSACTION 维度 ， 则 
该 维度 的 记录 数 和 SALES 事实 表 中 的 记录 数 将 在 同一 个 数量 级 (如 百 万 、 十 亿 个 记录 ) 上 ， 
且 同 一 时 刻 的 行 数 数量 级 比 任 何其 他 维度 的 行 数 都 要 高 。 

一 种 更 实用 的 方法 是 将 TID 作为 事实 表 中 额外 的 列 包 含 进来 ， 如 图 8-11 所 示 。 这 种 简 
单 的 方法 同样 可 以 分 析 哪 些 产 品 在 同一 个 交易 中 被 售 出 ， 且 不 需要 新 建 记 录 数 目 巨大 的 维 
度 。 实 际 上 ， 事 务 的 标识 码 可 以 表示 为 销售 事务 标识 码 、 顺 序 标识 码 、 租 赁 标识 码 、 票 据 标 
识 码 、 订 单 标识 码 等 。 让 事实 表 包 含 事务 标识 码 的 方法 ， 在 理论 与 实践 中 都 常常 称 为 退化 维 
度 ( degenerate dimension )， 术 语 “ 退 化 ”的 意思 是 “算术 上 更 简单 ” 。 该 术语 简单 地 反映 了 
在 事实 表 中 包含 事件 标识 码 比 为 其 创建 一 个 单独 的 维度 更 简单 。 


CALENDAR PRODUCT 







CalendarKey ProductKey 
FullDate ProductID 
DayOfWeek ProductName 
DayOfMonth SALES 事实 表 ProductPrice 
ProductVendorName 







Month 
Quarter 
Year 


CalendarKey (Fk) 
StoreKey (FkK) 
ProductKey (FK) 


ProductCategoryName 





CustomerKey (Fx) 

STORE TID CUSTOMER 
DollarsSold 

CustomerKey 
UnitsSold 

CustomerID 

CustomerName 

CustomerZip 





StoreKey 
StorelD 
StoreZip 


StoreRegionName 
StoreSize 
StoreCSystem 
StoreLayout 


CustomerGender 
CustomerMantalStatus 
CustomerEducationLeve! 
CustomerCreditScore 





图 8-11 ZAGI 零售 公司 分 析 任务 相关 的 维度 模型 中 包含 了 带 事务 标识 码 属性 (TID) 的 事实 表 
图 8-12 展示 了 图 8-11 所 示 维 度 中 的 记录 以 及 维度 模型 的 事实 表 。 
CALENDAR 维度 PRODUCT 维度 


ProductKey | ProductID | Product Product | Product Product 
Name Price Vendor Category 
Name Name 


2 | 5100 | Pactca Gear | Camprg | 
x | Cosy Socr| $15 | Mouniam Kno |Foomwear | 
EZ 
5X5 















Weonesay [2 | aniay [G1 | 2073 





| 1/2/2013 








1 Te |]850 | Mountan Kng | Campre 
6 | Bogy Teo [$250 | Mountan King | Campra | 


STORE 维度 


StoreKey StoreZip | StoreRegion | Store Store Store 
Name Size (m?) CSystem Layout 


I 60600 |Chcagoland | 51000 |Cashers |Modern 





图 8-12 图 8-11 所 示 维 度 模型 的 记录 (包含 TID 值 ) 
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CUSTOMER 维度 


| Customer | Customer Customer 
| | Gender EducationLevel 





old 


DollarsSs | UnitsSold 
| 1 


$100 | 
nl en a 
T222 | $70 | 1 


于 一 一 一 3 i | 
T7333 | $75 a | 
1 T7333 [$100 
Se 


———— 
CalendarKey | StoreKey | ProductKey | CustomerKey | TID 
oe 








一个-- 
T111 
































| 1 

- 3 | T444 [$90 | 1 

3 |r444 [$140 2 

2 |rs55 |$360 4 

5 2 | T555 |$300 2 
2 s250 [1 | 








图 8-12 ( 续 ) 


8.8 事实 表 中 的 事务 时 间 
为 说 明 事 务 时 间 的 概念 ， 我 们 对 ZAGI 零 售 公 司 的 例子 稍 作 扩展 。 我 们 通过 向 
SALESTRANSACTION 实体 以 及 图 8-13 所 示 的 结果 SALESTRANSACTION 关系 中 添加 事务 时 
间 (TTime) 属性 ， 来 扩展 图 8-2 所 示 的 图 表 。 图 8-13 所 示 ER 图 中 所 有 其 他 元 素 与 图 8-2 相同 。 
图 8-14 给 出 了 图 8-13 所 示 ZAGI 零售 公司 销售 部 门 数 据 库 中 的 数据 记录 ， 其 ER 图 及 
关系 模式 见 图 8-13。 关 系 SALESTRANSACTION 中 的 列 TTime 已 经 填 有 相应 数据 。 图 中 所 
有 其 他 列 与 图 8-3 相同 . 


ReglonlD 
Produrctpnce 
ProaduyctNarne vengariD 
REGION 





PRODUCT 有 


SA YN 





CATEGORY 
db 


Ca 
uvUStOMOe NGC 
SALES \ 
C mme ) TRANSACTION 了 CUSTOMER 


图 8-13 ZAGI 零售 公司 销售 部 门 数据 库 : ER 图 及 结果 关系 模型 (TTime 属性 已 添加 ) 
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PRODUCT 
ProductID 
ProductName 











REGION ProductPrtCe VENDOR 
RegionID VendorlD (Fk) VendorlD 
VendorName 





RegionName CategorylD (Fx) 





STORE SOLDVIA 


StoreID ProductID ,Fr CATEGORY 








StoreZip TID (Fx) CategoryID 

ReqionlD (xr) NoOfltrems CategoryName 
SALESTRANSACTION CUSTOMER 
TID CustomerID 
TDate CustomerName 
TTIme CystomerZip 
StorelD (Fx) 
CustomerlD (Fr) 

图 8-13 ( 续 ) 
REGION PRODUCT VENDOR 
















EEC 









STORE 






RegionlD 






T 


SALESTRANSACTION SOLDVIA 
no [csomerD [stoop ome [Time | |aadeto [TD [vooriems 

































图 8-14 图 8-13 所 示 ZAGI 零售 公司 销售 部 门 数据 库 中 的 数据 记录 


假设 业务 分 析 人 员 在 分 析 ZAGI 零售 公司 的 销售 主题 时 ， 和 希望 考虑 一 天 中 的 时 间 ， 这 时 
可 扩展 图 8-11 中 的 维度 模型 以 包含 这 一 信息 。 

一 种 方法 是 将 一 天 中 的 时 间作 为 一 个 独立 的 维度 ， 或 者 作为 CALENDAR 维度 的 一 部 
分 。 对 当天 的 分 析 仅 需要 相对 粗糙 的 时 间 段 ( 即 早 上、 中午、 下 午 、 晚 上 、 夜 晚 )， 这 种 方 
法 十 分 合理 也 比较 实用 ， 原因 是 该 方法 既 不 会 产生 一 个 只 包含 少数 记录 的 单独 时 间 维 度 ( 即 
5 条 记录 ， 分 别 为 早上 、 中 午 、 下 午 、 晚 上 、 夜 晚 )， 同 时 还 可 确保 CALENDAR 维度 以 相对 
较 小 的 比例 被 扩展 ( 即 CALENDAR 维度 中 每 天 为 5 条 记录 而 不 是 1 条 记录 )。 然 而 ， 如 果 
时 间 分 析 需 要 以 秒 来 表示 ， 单 独 的 CALENDAR 维度 则 有 86400 条 记录 (24x 60x60), 或 
者 扩展 的 CALENDAR 维度 可 能 包含 上 亿 的 记录 ( 86400 x 表示 的 天 数 )。 此 时 单独 的 TIME 
维度 和 扩展 的 CALENDAR 维度 都 不 再 可 行 ， 而 将 时 间 添 加 为 事实 表 的 一 个 新 属性 将 会 是 一 
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种 更 为 简单 的 方法 ， 如 图 8-15 所 示 ， 该 方法 同样 允许 任何 与 天 相关 的 业务 分 析 。 


CALENDAR PRODUCT 


CalendarKey ProductKey 
FullDate ProductID 


DayOfWeek 
DayOfMonth 
Month 
Quarter 
Year 









ProductName 


SALES 事实 表 ProductPrice 
ProductVendorName 
ProductCategoryName 


CalendarKey {Fx) 
Storekey (FK) 
ProductKey (Fx) 
CyusStomerKey (FKI) 





STORE oe. 有 CUSTOMER 
Ime ay 
orereY Dolarcseld CustomerKey 
tore UnitsSold CustomerID 

StoreZip CustomerName 
CustomerZip 
CustomerGender 
CustomerMaritalStatus 
CustomerEducationLevel 
CustomerCreditScore 


图 8-15 ZAGI 零售 公司 用 于 销售 分 析 的 分 析 型 数据 库 相 应 的 维度 模型 中 ， 
带 有 事务 时 间 属 性 (TimeOfDay) 的 事实 表 
图 8-16 给 出 了 图 8-15 中 维度 模型 对 应 的 填充 数据 表 。 


CALENDAR 维度 PRODUCT 维度 


CalendarKey | FullDate | DayOf DayOf | Month Year ProductKey | ProductiD | Product Product | Product 
Week Month Name Price Vendor 


1/1/2013 | Tuesday 
2 /2/2013|Wednesday [2 |Janvary | G1 | $100 am 












StoreRegionName 
StoreSize 
StoreCSystem 
StoreLayout 


















STORE 维度 















StoreKey StoreRegion | Store Store 
Name Size (m’) CSystem 


| 
CEE 
js aso Jrae [55000 [Meo | Trader 


CUSTOMER 维度 


CustomerKey | CustomerlD | Customer | Customer | Customer | Customer Customer Customer 
Name Zip Gender MaritalStatus | EducationLevel | CreditScore 
1 














3 





ca ICIOCE 


EO 





图 8-16 填 有 数据 的 事实 表 ， 包 含 事务 标识 码 以 及 日 期 的 数据 
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注意 ， 事 实 表 中 可 以 包含 事务 标识 码 的 列 以 及 一 天 中 的 时 间 的 列 ， 这 样 的 想法 可 以 应 用 
“| ”到 任何 一 种 实际 的 事件 处 理 场 景 中 ， 如 购买 事务 、 顺 序 、 找 零 、 票 据 、 账 单 等 ， 以 此 为 事实 
239| ” 表 提 供 基 础 。 


8.9 一 个 维度 模型 中 的 多 个 事实 表 


一 个 维度 模型 可 以 包含 多 个 事实 表 ， 该 情况 出 现在 多 个 分 析 主 题 共 享 维度 的 时 候 。 下 面 
的 例子 将 采用 ZAGI 零售 公司 的 场景 来 说 明 这 个 概念 。 

在 ZAGI 零 售 公司 中 ， 除 了 销售 部 门 需要 跟踪 销售 记录 外 ， 质 量 监管 部 门 需要 跟踪 商店 
中 的 劣质 产品 。 质 量 监管 部 门 定期 检查 商店 的 所 有 货架 ,发 现 劣质 产品 则 将 该 产品 从 货架 上 
移 除 。 劣 质 产品 的 每 次 发 现 与 移 除 过 程 ， 质 量 监管 部 门 工作 人 员 都 会 直接 将 时 间 、 上 日 期 、 肯 
质 类 型 、 产 品 信 息 记 录 到 ZAGI 零售 公司 质量 监管 部 门 的 数据 库 中 。 

图 8-17 给 出 了 ZAGI 和 零售 公司 质量 监管 部 门 的 ER 图 以 及 得 到 的 关系 模式 。 


RegionlD 
ProductPrice 


VendorlD VendorName 
REGION 
PRODUCT > SuppliedBy VENDOR 
A/ 


小 < > CATEGORY 











|、 IN 
ee ) ee 
DFT me 
PRODUCT 
VENDOR 

REGION VendoriD 
RegionID CategoryID (Fx) VendorName 
RegionName 

DEFECTFOUND 

STORE ProductID (Fx) CATEGORY 
StoreID StorelD (Fx) CategoryiD - 
StoreZiIp DFTIme CategoryName 


RegionlD ;Fk, DFDate 
NoOfltems 





图 8-17 ZAGI 零售 公司 质量 监管 部 门 数据 库 的 ER 模型 和 关系 模式 
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区 8-18 给 出 了 ZAGI 零售 公司 质量 监管 部 门 数据 库 的 记录 ， 该 数据 库 的 ER 图 与 关系 模 
式 见 图 8-17。 


REGION PRODUCT VENDOR 


CategoryiD 






Pacifica Gear 
Mountain King 


RegioniD | RegionName 








Cmcagoland 


Tnstate FVV 




























STORE _ DuraBoot | $90 CATEGORY 

StorelD | StoreZip RegionlD CategoryID | CategoryName 
| ” = 

SA | 60600 Camping 
| S2 > Footwear 













| 1-Jan-2013 ] 8.00:00 AM 


| DFT202 | 2X2 | S2 | 1.Jan.2013 | 8:30:00 AM 


4 


| DFT303 | 3x3 |s3 2.Jan.2013 | 8.45.00 AM 
图 8-18 ZAGI 零售 公司 质量 监管 部 门 数据 库 的 数据 记录 


在 ZAGI 和 零售 公司 中 ， 质 量 监管 部 门 数 据 库 的 部 分 信息 与 图 8-13、 图 8-14 所 示 的 销售 
部 门 数据 库 重复 。 例如， 两 个 数据 库 都 包含 了 商店 与 产品 的 信息 。 正 如 本 书 第 7 章 所 述 ， 组 
织 机 构 拥 有 多 个 存在 重复 信息 的 单独 操作 型 数据 库 ， 这 种 现象 十 分 常见 。 

ZAGI 零售 公司 希望 用 与 分 析 销 售 招 同 样 的 方法 分 析 劣 质 产 品 ， 公 司 决定 创建 一 个 维度 
模型 来 分 析 在 商店 中 出 现 的 劣质 产品 - 分 析 劣 质 产 品 所 需要 的 维度 已 经 在 分 析 销 售 的 维度 模 
型 中 创建 完成 。 因 此 ，ZAGI 专 售 公司 数据 建 模 团 队 可 以 简单 地 创建 另 一 个 劣质 产品 的 事实 
表 ， 作 为 已 有 维度 模型 的 一 部 分 ， 而 不 是 单独 创建 一 个 新 的 维度 模型 。 如 网 8-19 所 示 。 


CALENDAR PRODUCT 


CalendarKey ProductKey 
FullDate ProductJD 







[ES | 5 


必 -一 -一 一 一 一 一 ee- 


















































DayOfWeerk productName 
DayOfMonth SALES 事实 表 prodictprice 
Month CalendarKey IFk,) productVendorName 





Quarter 
Year 


StoreKey [Fk ProductCategoryName 
ProductKey (Fk 
CustomerKey /Fk 
TID 

TimeOfDay 
DollarsSold 
UnitsSold 


CUSTOMER 


CustomerKey 
CustomerlD 



























DEFECTS 事实 表 


CalendarKey (FK) 


StoreKey 
StorelID 











Storezip StoreKey (Fk) CustomerName 
StoreRegionName ProductKey (FkK) CustomerZip 
StoreSlze DFTID CustomerGender 


StoreCSystem 
StoreLayout 


TimeOfDay 
DefectiveUnitsFound 


CustomerMaritalStatus 
CustomerEducationLevel 
CustomerCreditScore 





图 8-19 拥有 两 个 主题 的 扩展 维度 模型 


图 8-20 给 出 了 图 8-19 中 维度 模型 对 应 的 填充 数据 表 。 

有 多 个 事实 表 的 维度 模型 (如 图 8-19 所 示 ) 又 称 为 星座 / 星系 (constellation/galaxy of 
stars) 。 该 方法 可 以 更 快 地 开发 用 于 多 主题 分 析 的 分 析 型 数据 库 ， 原 因 是 对 维度 进行 了 重复 
利用 而 不 是 直接 复制 。 同 样 ， 由 于 共享 了 维度 ， 该 方法 还 可 以 直接 进行 交叉 事实 分 析 ， 如 比 
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较 产 品 的 日 平均 销售 量 与 劣质 产品 的 日 平均 发 现 与 移 除 量 ， 比 较 对 象 可 以 是 每 个 商店 、 区 
242 域 、 季 度 、 产品 类 型 等 。 


CALENDAR 维度 PRODUCT 维度 
CalendarKey DayOf DayOf | Month | Qtr | Year ProductKey | ProductiD | Product Product | Product 
Week Month Name Price Vendor 人 
Name Name 
ov | oma [or [30s 
on x! |zxrBag |$100 |PaciicaGear |Camping_ 
2 | easy Boor | $70 |Mouniam Kng| Foowear 
3 x ow Sock| $15 | Mounamn Kng [Foowear | 
bua Boor | S90 | Pacns Goar | Foowear | 


Ce 
ss [rn Ten [S150 [ounian Kng| Campng 
xe oo, Ten [$250 [Mourtam Kng | Camprg | 

























STORE 维度 


StoreKey | StorelD | StoreZip | StoreRegion | Store | Store 
| Name Size Im’*) | CSystem 
一 一 一 一 一 | 一 一 | 
1 ! Chicagoland shier: Modern 


| S2 |60605 | Chicagoland | 35000 Self Serwce | Tradenal 


35400 Tristate 55000 | Mixed Tradeanal 


Customer | Customer Customer Customer 
Gender MaritalStatus | 0 
Female Singie [College | 











CUSTOMER 维度 















CustomerKey | CustomerlD | Customer | Customer 










Name 
a lw 
CI 2.3.444 :2 Male | Smgle High School 人 一 一 





emae IMamea [Coiege oo 
SALES 事实 表 


CalendarKey | StoreKey | ProductKey | CustomerKey | TID TimeOfDay | DollarsSold | UnitsSold 
I CET | 


| T222 | 8.24.30 AM 
T333 | 8:15:08 AM | 
T333 | 8.15:08 AM | $100 


T444 | 8.20:33 AM | $90 
T444 | 8 .20 33 AM 





| 
DFT202 | 8:30:00 AM | 2 
DFT303 | 8:45.00 AM | 6 





图 8-20 图 8-19 中 维度 模型 的 记录 


8.10 细节 事实 表 与 聚集 事实 表 


维度 模型 中 的 事实 表 既 可 以 包含 细节 数据 (detailed data) 也 可 以 包含 聚集 数据 
(aggregated data)。 在 细节 事实 表 ( detailed fact tables) 中 ， 每 条 记录 代表 一 个 单一 事实 ; 而 
在 聚集 事实 表 ( aggregated fact tables) 中 ， 每 条 记录 概括 了 多 个 事实 。 下 面 的 例子 说 明了 两 
种 事实 表 中 数据 的 区 别 。 为 解释 这 些 概念 ， 我 们 将 进一步 扩展 图 8-14 所 示 ZAGI 和 零售 公司 
销售 部 门 操作 型 数据 库 的 数据 集 ， 扩 展 后 的 数据 集 见 图 8-21。 

与 图 8-14 中 的 数据 集 相 比 ， 图 8-21 中 的 数据 集 进 行 了 扩展 : 在 SALESTANSACTION 
表 中 添加 了 一 条 记录 ， 在 SOLDVIA 表 中 添加 了 两 条 记录 。 在 扩展 之 后 的 情形 中 ， 早 上 
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8:30:00 已 经 在 S3 商店 购买 了 两 个 Tiny 帐篷 以 及 一 个 Biggy 帐篷 的 顾客 Tony， 在 一 个 小 
时 后 的 9:30:00 又 返回 到 同一 家 商店 购买 了 同样 的 商品 。 对 数据 集 稍 作 扩展 可 以 帮助 我 们 更 
好 地 说 明 下 面 例子 中 的 细节 星 形 模式 和 聚集 星 形 模式 之 间 的 区 别 。 图 8-21 中 的 数据 集 将 与 
图 8-6 和 图 8-7 所 示 的 数据 集 一 起 作为 下 面 例 子 的 数据 源 。 


REGION PRODUCT VENDOR 






















lewcowrs | [x laee | |re le | Ise |PeoncaGe | 
re | lm ever | S70 Iv lrw | [vw wonenkng 
a cowsoor [8's lw mw | 
CATEGORY 
Storezin [RegioniD | [sx5 |iwrm ss |w |cp | |categomD [CategovName | 
5 | [xe laowrew |s250 Ivw je Ci CT 
sz js le wy Foowear 
| 
SOLDVIA CUSTOMER 








CustomerID CustomerZip 





TID ProductliD | TID | NoOfltems 
T111 | 1.2.333 





图 8-21 有 两 个 主题 的 扩展 维度 模型 


8.10.1 细节 事实 表 

图 8-22 给 出 了 一 个 包含 销售 主题 细节 事实 表 的 维度 模型 。 图 8-23 给 出 了 图 8-22 所 示 的 
维度 模型 对 应 的 数据 填充 表 

在 图 8-21 所 示 的 ZAGI 零 售 公 司 销售 部 门 数据 库 中 ， 一 个 销售 事实 由 SOLDVIA 表 
中 的 一 条 记录 表示 。 由 于 图 8-23 中 的 SALES 表 是 细节 型 的 ， 所 以 表 中 的 每 条 记录 是 指 [243 
由 图 8-21 所 示 SOLDVIA 表 中 的 一 条 记录 所 表示 的 一 个 销售 事实 。 因 此 ， 表 SALES 与 表 
SOLDVIA 都 有 11 行 。 为 了 强调 图 8-22 和 图 8-23 中 SALES 事实 表 的 行 所 表示 的 内 容 ， 我 
们 对 其 主 码 进行 了 明确 标记 。 主 码 由 TID 和 ProductKey 两 个 列 组 成 ， 这 是 因为 事实 表 中 的 
每 条 记录 表示 一 个 特定 销售 事务 中 的 特定 行 。 由 于 同一 个 事务 可 以 购买 多 个 产品 ， 因 此 表 中 
的 TID 并 不 唯一 。 类 似 地 ， 由 于 同一 个 产品 可 以 与 多 个 事务 有 关 ， 因 此 表 中 的 ProductKey 
也 不 唯一 。 因 而 需要 TID 与 ProductKey 一 起 组 成 主公 。 


8.10.2 聚集 事实 表 
相应 地 ， 图 8-24 给 出 了 包含 销售 主题 的 聚集 事实 表 的 一 个 维度 模型 。 图 8-25 给 出 了 
图 8-24 所 示 维 度 模 型 对 应 的 数据 填充 表 。 
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CALENDAR PRODUCT 


CalendarKey ProductKe 
ProductID 














FuyullDate 
DayOfWeerk ProductName 
DayCfMonth SALES 事实 表 ProductPrice 
Manth CalendarKey (Fk) ProductVendorName 
Quarter StoreKey (Fk) ProductCategoryNaeme _ 
Year productKey (fx) 
CustomMerKey (Fx) 
STORE TID CUSTOMER 


TimeOfDay 
DollarsSold 
UnitsSold 


CustomerKey 
CustomerID 
CustomerName 
CustomerZip 
CustomerGender 
CustomerMaritalStatus 
CustomerEducationLevel 
CustomerCreditScore 


StoreKey 
StorelD 
Storezip 





StoreRegionName 
StoreSize 
StoreCSysStem 
StoreLayout 





图 8-22 ” 带 有 细节 事实 表 的 维度 模型 


CALENDAR 维度 PRODUCT 维度 


CalendarKey | FullDate DayOf ProductKey | ProductiD | Product Product | Product 
Month Name Price 


2013 | Tuesday | 1 |Januany 
| 17272013 | Wednesday 1! lx lzzBag |$100 
2 Easy Boot | $70 |Mountan King | Footwear | 


x3 Cow Soor| $15 | Mounan Kng |Foowe | 
xd | Dua Boor | $00 | Pacnes Gear | Foowmear 
rs 
人 ae [mog ren |$250 [Moankna| Comprg | 




















Year 
















STORE 维度 


StoreKey torelD | StoreZip | StoreRegion | Store Store Store 
Name Size (m2?) CSysiem Layout 
1 Chicagoland | 51000 


S 
SI1 
35400 Tnsiale 55000 Mixed Traditional 





CUSTOMER 维度 



















CustomerKey | CustomerID | Customer Customer | Customer Customer Customer 
Gender MaritalStatus | EducationLevel | CreditScore 






700 


650 





60137 Single College 
Tony 60611 |Mae Single High School 










2.3.444 









SALES 事实 表 


sms | 
om | $7 
me wee La 
Ei 

Ci \ 














| 
aaaosaAm | $s0 | 
|ralazosawlsa | 
assooowlsso | 
lasooomwlso | 

3 le jh ssslesolss | | 
5 | essooowlso | 

2 jaeelssooowlss | 


图 8-23 图 8-22 对 应 的 填充 数据 的 维度 模型 
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CALENDAR PRODUCT 
CalendarKey ProductKey 
FullDate ProductID 
DayOfWeek ProductName 
DayOfMonth SALESperDPCS 可 入 ProductpPrice 
Month CalendarKey (Fr) ProductVendorName 
Quarter StoreKey (Fx) ProductCategoryName 





Year 





ProductKey (FK) 


CustomerKey (FK) 
STORE DollarsSold CUSTOMER 





| 
UnitsSold CustomerKey 


customeriID 
CustomerName 
CustomerZip 
CustomerGender 
CustomerMaritalStatus 
CustomerEducationLevel 
CustomerCreditScore 


StoreKey 
StorelD 


StoreZip 


StoreRegionName 
StoreSize 
StoreCSystem 
StoreLayout 





图 8-24 ”市 有 聚集 销售 事实 表 SalesPerDPCS 
(每 天 、 每 个 产品 、 每 个 顾客 和 每 个 商店 ) 的 维度 模型 
Vendor Category 


ProductiD | Product Product 
Name Price 
Name Name 


fe yen [8150 | Moomen tng [Camprg | 
sxe Bog Ton [$250 | Mowen rng| camprg | 


CALENDAR 维度 














Product 






Product 













STORE 维度 


StoreKey | StorelD | StoreZip | StoreRegion | Store Store | Store 
Size Im CSystem 、| Layout 


Chicagoland 51000 | Gashiers Modern 


Chicagoland | 35000 | Selt Service | Traditional 
Tristate 55000 | Mixed Traditional 





CUSTOMER 维度 


CustomerKey | CustomerID | Customer | Customer Customer | Customer Customer Customer 
Name Zip Gender MaritalStatus | EducationLevel | CreditScore 


Ey 
I.333 | Tina | 601 37 Fernalie Single College 700 



















2 3-444 | Tony | 6D611 Male | Single High School 650 
3.4.555 Pam 35401 Female ] Marned College 623 


是 









3 
3 | $100 
2 a | 4 13 $90 1 
人 40 图 8-23 的 SALES 事实 表 中 第 8 条 和 第 10 条 记录 汇总 
2 4 2 360 4 A 
5 | 图 8-23 的 SALES 事实 表 中 第 9 条 和 第 11 条 记录 汇总 


( 相 加 ) 后 的 数量 
图 8-25 图 8-24 对 应 的 填充 数据 的 维度 模型 
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为 了 强调 图 8-24 和 图 8-25 中 SALES 事实 表 的 聚集 特性 ， 我 们 明确 地 标识 了 其 主 码 。 
主 码 包 含 CalendarKey 、StoreKey 、ProductKey 、CustomerKey 四 个 列 ， 这 是 因为 SALES 事 
实 表 中 的 每 条 记录 表示 一 个 汇总 结果 ， 该 结果 代表 某 天 某 个 顾客 在 某 个 商店 购买 某 种 产品 的 
总 金额 和 单位 。 

如 前 所 述 ， 图 8-23 的 细节 SALES 事实 表 有 11 条 记录 ,与 图 8-21 中 SOLDVIA 表 中 的 
记录 数 相 同 。 这 是 因为 两 个 表 中 的 每 条 记录 都 代表 一 个 事实 。 而 男 一 方面 ， 由 于 图 8-25 中 
的 SalesPerDPCS 表 是 一 个 聚集 类 型 的 事实 表 ， 因 而 它 只 有 9 条 记录 。 特 别 地 : 

e [加 8-25 中 聚集 SalesPerDPCS 事实 表 中 的 第 8 条 记录 汇总 了 ( 相 加 在 一 起 ) 图 8-23 

中 SALES 事实 表 中 的 第 8 条 与 第 10 条 记录 ， 也 就 是 图 8-21 中 SOLDVIA 表 中 的 第 
8 条 和 第 10 条 记录 。 
e 图 8-25 中 聚集 SalesPerDPCS 事实 9 条 记录 汇总 了 ( 相 加 在 一 起 ) 图 8-23 
中 SALES 事实 表 中 的 第 9 条 与 第 11 条 记录 ， 也 就 是 图 8-21 全 SOLDVIA 表 中 的 第 
9 条 和 第 11 条 记录 。 

该 聚集 过 程 出 现 的 原因 是 TID 值 没 有 被 包含 在 聚集 SalesPerDPCS 事实 表 中 。 图 8-25 
中 聚集 SalesPerDPCS 事实 表 的 前 7 条 记录 由 一 张 单 独 的 事实 表 汇 总 得 到 ， 因 此 这 些 值 与 
图 8-23 中 SALES 事实 表 的 前 7 条 记录 是 相同 的 ,与 图 8-21 中 SOLDVIA 表 的 前 7 条 记录 
也 是 相同 的 。 这 是 由 于 在 这 7 种 情况 中 ， 某 一 天 中 某 顾客 在 某 个 商店 只 购买 了 一 个 产品 。 第 
8 条、 第 10 条 以 及 第 9 条 、 第 11 条 记录 源 自 两 个 事务 ， 在 这 两 个 事务 中 ， 同 一 天 中 同一 个 
顾客 在 同一 个 商店 中 购买 了 两 个 相同 的 产品 。 

将 图 8-21 的 数据 源 中 的 数据 进行 聚集 有 多 种 方式 ， 上 面 的 例子 便 是 其 中 一 种 。 图 8-26 
与 图 8-27 给 出 了 男 一 个 例子 。 图 8-26 中 维度 模型 聚集 的 数据 与 图 8-24 聚集 的 数据 相同 ， 只 
是 所 用 方式 不 同 (图 8-26 的 方式 更 粗糙 ) 。 


CALENDAR 





CalendarKkey 























FullDate 

DayQfWeek 

DayOfMonth SALESPerDCS 过 
Month CalendarKey Fk) 
Quarter 


StoreKey (下 KK) 


CustomerKey |Fr) 
DollarsSold 
UnitsSsold 


Year 














CUSTOMER 
CustomerKey 


CustomerID 
CustomerName 
CustomerZip 
CustomerGender 
CustomerMaritalStatus 
CustomerEducationLevel 
CustomerCreditScore 












STORE 


StoreKey 
StorelD 
Storezip 
StoreRegionName 
StoreSlzs 
StoreCSystem 
StoreLayout 



















图 8-26 ”和 带 有 聚集 事实 表 SalesPerDCS (每 天 、 每 个 顾客 和 每 个 商店 ) 的 维度 模型 


图 8-27 给 出 了 图 8-26 的 维度 模型 对 应 的 数据 填充 表 。 

在 图 8-26 与 图 8-27 中 ， 聚 集 事 实 表 SALES 的 主 码 由 CalendarKey、StoreKey 以 及 
CustomerKey 儿 个 列 组 成 。 表 SALES 中 没有 包含 ProductKey， 因 为 表 中 包含 了 所 有 产品 的 
聚集 。 聚 集 的 SALES 事实 表 中 的 每 条 记录 是 一 个 汇总 ， 代 表 了 某 天 当中 某 个 顾客 在 某 商店 
购买 某 产 品 的 总 金额 与 单位 。 
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CALENDAR 维度 










CalendarKey | FullDate 





1/1/2013 
112/2013 






DayOf DayOf 
‘Week Month 
STORE 维度 


| StoreKey ' StorelD | StoreZip | StoreRegion | Store Store | Store 
| Name Size (m2) CSystem Layout 


1 | S1 60600 Chicaqgoland | 51000 Cashiers Modern 


2 S2 60605 Chicagolandg | 35000 Selt Service | Traditional 
3 S3 Tristare 55000 | Mixed Tradonal 


CUSTOMER 维度 
CustomerKey | CustomerID | Customer Customer Customer | Customer Customer Customer 
Gender MaritalStatus | EducationLevel a 


| Name 
3.4.555 | Pam | 35401 Female | Marrned Goone 


SALESPerDCS 事实 表 
CalendarKey | StoreKey | CustomerKey DollarsSold | UnitsSold 
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1 1 | $100 1 图 8-23 的 SALES 事实 表 中 第 3 条 和 第 4 条 记录 


EE 区 一 “一 一 一 汇总 ( 相 加 ) 后 的 数量 
[3 1 $I75 |6 le- 图 8-23 的 SALES 事实 表 中 第 5 条 和 第 6 








2 
加 3 3 $230 3 汇总 ( 相 加 ) 后 的 数量 
2 2 


( 相 加 ) 后 的 数量 
图 8-27 图 8-26 对 应 的 填充 数据 的 维度 模型 


条 记录 


$1.460 110 |< 一 图 8-23 的 SALES 表 中 第 7 条 到 第 11 条 记录 汇总 


图 8-27 所 示 的 聚集 事实 表 SalesPerDCS 有 5 条 记录 ， 最 下 面 的 3 条 记录 包含 了 下 面 的 


汇 总 信 忆 se 


e SalesPerDCS 的 第 3 条 记录 汇总 了 图 8-23 中 SALES 事实 表 的 第 3 条 记录 与 第 4 条 记 


录 ， 即 图 8-21 中 SOLDVIA 表 中 的 第 3 条 与 第 4 条 记录 。 


e@ SalesPerDCS 的 第 4 条 记录 汇总 了 图 8-23 中 SALES 事实 表 的 第 $ 条 记录 与 第 6 条 记 


录 ， 即 图 8-21 中 SOLDVIA 表 中 的 第 5 条 与 第 6 条 记录 。 


e。 SalesPerDCS 的 第 5 条 记录 汇总 了 图 8-23 中 SALES 事实 表 的 第 7 条 记录 与 第 11 条 


记录 ， 即 图 8-21 中 SOLDVIA 表 中 的 第 7 条 与 第 11 条 记录 。 


图 8-27 中 聚集 的 SalesPerDCS 事实 表 的 前 2 条 记录 由 一 张 单独 的 事实 表 汇 总 得 到 ， 因 
此 该 表 与 图 8-23 中 SALES 事实 表 的 前 2 条 记录 取 值 相同 ， 与 图 8-21 中 SOLDVIA 表 的 前 2 


条 记录 也 相同 。 这 是 由 于 这 两 条 记录 都 是 表示 同一 天 中 同一 个 顾客 在 同一 家 商店 只 


购买 了 一 


个 产品 的 情况 。 若 同一 天 中 同一 个 顾客 在 同一 个 商店 购买 了 两 个 或 两 个 以 上 的 产品 ， 购 严 记 


录 就 会 被 聚集 到 图 8-27 所 示 的 SalesPerDCS 事实 表 中 。 
8.10.3 细节 事实 表 与 聚集 事实 表 的 其 他 实例 


为 了 扼要 重 述 细节 事实 表 与 聚集 事实 表 的 概念 ， 我 们 再 来 看 看 本 章 维度 模型 的 其 他 事实 


表 ， 并 将 这 些 表 区 分 为 细节 型 与 聚集 型 。 
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在 图 8-4、 图 8-5 以 及 图 8-8、 图 8-9 给 出 的 例子 中 ， 事 实 表 SALES 是 聚集 型 事实 
表 ， 其 主 码 由 CelandarKey 、StoreKey 、ProductKey 以 及 CustomerKey 组 成 。 在 这 些 例子 
中 ， 事实 表 SALES 没有 包含 TID， 表 明 事 实 表 是 聚集 型 的 ，SALES 事实 表 与 图 8-3 中 的 
SOLDVIA 表 有 相同 的 记录 数目 。 然 而 ， 如 果 情 形 如 同 图 8-25 所 示 ， 即 同一 天 当中 同一 个 顾 
客 在 同一 个 商店 购买 了 两 次 同样 的 产品 ， 这 时 候 就 不 属于 聚集 型 事实 表 了 。 

在 图 8-11、 图 8-12 和 图 8-15、 图 8-16 以 及 图 8-19、 图 8-20 给 出 的 例子 中 ， 事 实 表 
SALES 是 细节 类 型 事实 表 ， 其 主 码 由 ProductKey 和 TID 组 成 。 


8.11 事实 表 的 粒度 


事实 表 的 粒度 ( granularity) 刻画 的 是 事实 表 中 每 一 行 描述 的 信息 。 细 节 事 实 表 具有 较 
好 的 粒度 ， 因 为 每 条 记录 代表 一 个 单独 的 事实 。 比 起 细节 事实 表 ， 聚 集 事 实 表 的 粒度 比较 粗 
糙 ， 这 是 由 于 聚集 事实 表 通 常 表示 多 个 事实 的 汇总 。 

例如 ， 如 前 文 所 述 ， 图 8-24 与 图 8-25 中 的 SalesPerDPCS 事实 表 比 图 8-22 与 图 8-23 中 
的 SALES 事实 表 粒 度 更 粗糙 ， 因 为 SalesPerDPCS 事实 表 中 的 记录 是 对 图 8-22、 图 8-23 事 
实 表 SALES 中 记录 的 汇总 。 图 8-26、 图 8-27 的 事实 表 SalesPerDCS 的 粒度 更 为 粗糙 ， 因 为 
它 的 记录 是 从 图 8-24、 图 8-25 的 事实 表 SalesPerDPCS 中 汇总 得 到 的 。 例 如 ，SalesPerDPCS 
的 第 3 条 记录 汇总 了 图 8-23 中 SALES 事实 表 的 第 3 条 与 第 4 条 记录 ， 同 样 也 是 图 8-24、 图 
8-25 中 SalesPerDPCS 事实 表 的 第 3 条 记录 与 第 4 条 记录 。 

鉴于 其 紧密 程度 ， 粗 烽 粒 度 聚 集 的 事实 表 查 询 起 来 比 细节 事实 表 更 快 。 然 而 ， 粗 粒度 的 
表 将 受到 其 所 能 检索 到 信息 的 限制 。 聚 集 与 需求 相关 ， 较 细 粒 度 使 得 分 析 相 对 不 受 限 制 。 换 
言 之 ,用户 往往 可 以 从 最 细 的 粒度 获得 一 个 聚集 ， 相 反 则 不 成 立 。 

一 种 既 能 利用 聚集 事实 表 的 查询 性 能 又 能 保留 细节 事实 表 的 分 析 优 热 的 方法 是 ， 让 两 种 
类 型 的 表 同 时 存在 于 一 个 维度 模型 中 ， 即 在 同一 个 星座 模型 中 。 例 如 ,图 8-22、 图 8-24 以 
及 图 8-26 所 示 的 图 形 ， 可 以 成 为 同一 个 模式 中 的 一 个 部 分 ， 如 图 8-28 所 示 。 

如 果 一 个 用 户 需 要 分 析 某 天 中 某 顾客 在 某 商 店 购买 某 产 品 的 每 个 汇总 销售 数据 ， 或 某 天 
中 有 麻 顾客 在 某 商 店 的 每 个 汇总 销售 数据 ， 用 户 可 以 快速 查询 聚集 事实 表 SALESPerDPCS 以 
及 SALESPerDCS， 同 时 也 可 以 从 细节 事实 表 SALES-DETAILED 中 进行 任何 其 他 类 型 的 销 
售 分 析 ， 虽 然 速 度 比较 慢 。 


条 目 级 细节 事实 表 与 事务 级 细节 事实 表 


根据 其 基本 数据 源 所 描述 的 内 容 ， 细 节 事 实 表 可 以 表示 不 同类 型 的 信息 。 最 常见 的 两 种 
细节 事实 表 是 条 目 级 细节 事实 表 与 事务 级 细节 事实 表 。 

在 条 目 级 细节 事实 表 (line-item detailed fact table) 中 ， 每 行 表 示 一 个 事务 中 的 一 个 条 目 
行 。 图 8-22 与 图 8-23 所 示 的 SALES 表 就 是 条 目 事 实 表 ， 因 为 每 行 表示 一 个 销售 事务 中 的 
一 个 条 目 行 。 其 基本 数据 源 (ZAGI 零售 公司 销售 部 门 数据 库 ) 中 关于 销售 主题 的 最 细 粒 度 
事实 表 由 一 个 销售 事务 中 的 一 个 条 目 行 表示 。 

在 事务 级 细节 事实 表 ( transaction-level detailed fact table) 中 ， 每 行 表 示 一 个 事务 。 考 
虑 ZippyZoom 汽车 租赁 商 的 例子 ， 每 个 租赁 事务 在 一 个 部 门 中 进行 ， 与 一 辆 车 和 一 个 顾客 
相关 。 在 ZippyZoom 汽车 租赁 商 的 操作 型 数据 库 中 ， 除 了 记录 租赁 日 期 、 被 租 汽 车 、 租 车 
顾客 外 ， 还 可 能 记录 唯一 的 RentalID 、 租 赁 总 量 。 基 于 该 操作 型 数据 库 ，ZippyZoom 汽车 租 
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赁 商 可 以 建立 一 个 维度 模型 数据 库 来 分 析 租 金 收 益 ， 如 图 8-29 所 未 。 


SALESPerDPCS 














CalendarKey (Fr 











ProductKey (Fx 
CustomerKey (Fk) 

CALENDAR Dollarssold PRODUCT 
CaiendarKey UnitsSold ProductKey 
FullDate ProductID 
DayODf Week ProductName 
DayOfMonth ProductPrice 
Month ProductVendorName 
QUarter SALES-DETAILED ProductCategoryName 
Year 实 

CalendarKey (FK | 

StoreKey IFx) 

ProductKey (Fxk) 

CustomerKey (Fx' 

TID 

TimeOfDay 

STORE DollarsSold CUSTOMER 

StoreKey Units>oid CustomerKey 
StorelD CustomeriD 
StorezZin CustomerName 
StoreReygioNnName CustomerZip 
StoreSize CustomerGender 


StoreCSystem 





CustomerMantalStatus 
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SALESPerDCS 
事实 表 


CustomerEducationLevel 
CustomerCreditscore 


StorelLayout 













CalendarKey (Fx) 
StoreKey (FX) 


CustomerKey (Fx) 
DollarsSold 
UnitsSold 






图 8-28 ”一 个 细节 和 聚集 事实 表 的 星座 模型 


CALENDAR 维度 CAR 维度 


CalendarKey 


BRANCH 维度 CUSTOMER 维度 


图 8-29 一 个 包含 事务 级 事实 表 的 维度 模型 


图 8-29 所 示 的 维度 模型 包括 四 个 维度 (CALENDAR、CAR、CUSTOMER 以 及 
BRANCH) 及 事实 表 RENTALREVENUE。 事 实 表 RENTALREVENUE 是 一 个 事务 级 的 细节 
事实 表 。 其 基本 数据 源 (ZippyZoom 汽车 租赁 商 操作 型 数据 库 ) 中 关于 租金 收益 主题 的 最 细 
粒度 事实 表 由 每 个 租赁 事务 表示 。 一 个 租赁 事务 没有 条 目 行 ， 因 为 它 只 包含 一 辆 车 。 因 此 ， 
该 事务 本 身 就 是 租金 收益 主题 事实 表 所 能 表示 的 最 低 细节 级 别 。 


8.12 缓慢 变化 维度 与 时 间 戳 
一 个 星 形 模式 中 的 典型 维度 要 么 包含 值 不 发 生 改 变 (或 基本 很 少 改 变 ) 的 属性 ， 如 商店 








RENTALREVENUE 
办 3 - 术 

Carkey (FK ) 
CustorerKey (FK) 
CalendarKey (FK) 
BranchKey (FKI) 
RentalTID 
AmountTaken 
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大 小 及 顾客 性 别 ， 要 么 包含 随时 间 偶 发 性 变化 的 属性 ， 如 顾客 邮编 及 薪水 。 包 含 可 变 属性 的 
维度 通常 叫做 缓慢 变化 维度 ( slowly changing dimension )。 有 几 种 不 同 的 方法 可 用 于 处 理 绥 
慢 变 化 维度 ， 最 常用 的 为 Typel1 、Type2 及 Type3 。 


8.12.1 Type1 方法 


Type1 方法 是 一 种 最 简单 的 方法 ， 它 常用 于 维度 中 由 于 错误 而 造成 的 属性 值 变 化 。 
Typel 方法 简单 地 改变 维度 记录 中 的 值 ， 即 用 最 新 值 取 代 旧 值 。 奋 使 用 了 Typel 方法 ， 则 不 
会 保存 任何 历史 信息 。 下 面 这 个 简单 的 例子 说 明了 Typel 方法 。 

假设 下 表 是 一 个 缓慢 变化 维度 : 

CUSTOMER 


CustomerKey | CustomerlD TaxBracket 
Low 


Ln ow | 












假设 Susan 的 TaxBracket 属性 值 需要 从 Medium 变 为 High， 若 使 用 Typel 方法 ,结果 如 下 : 
CUSTOMER 









Customerkey | customenp TaxBracket 
Susar 


第 2 行 中 的 TaxBracket 属性 的 旧 值 (Medium) 被 简单 地 用 新 值 ( High) 替换 。Typel 
方法 常 适用 于 以 下 情形 : 若 Susan 的 TaxBracket 开始 取 值 为 High， 但 被 错误 地 记录 为 
Medium， 改 变 之 后 使 其 正确 化 。 


8.12.2 Typez2 方法 


Typez2 方法 用 于 需要 保存 历史 信息 的 情况 。 每 次 维度 中 记录 值 发 生变 化 时 ，Type2 方 
法 使 用 新 的 值 为 代理 码 创 建 一 个 额外 的 维度 记录 。 这 里 继续 用 说 明 Typel 方法 的 例子 说 明 
Type2 - 

假设 下 表 是 一 个 缓慢 变化 维度 : 

CUSTOMER 


CustomerKey | CustomerID TaxBracket 
Ti lw | 
se wedm | 


假设 Susan 的 TaxBracket 属性 值 需要 从 Medium 变 为 High， 和 若 使 用 Type2 方法 ， 结 果 如 下 : 
CUSTOMER 


CustomerKey | CustomerID | CustomerName | TaxBracket 
Ti le lw 
4 lz |Susan |Hgh | 
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一 个 包含 Susan 的 TaxBracket 属性 新 值 ( High) 的 新 记录 被 创建 ， 同 时 包含 Susan 的 
TaxBracket 属性 旧 值 的 旧 记 录 依 然 保留 。Type2 方法 适用 于 以 下 情形 : Susan 的 Tax Bracket 
开始 确实 为 Medium， 后 来 变 为 High。 

注意 Type2 方法 中 代理 码 的 重要 作用 。 由 于 出 现 了 具有 相同 操作 码 的 多 条 记录 (记录 
2 与 记录 4 中 相同 的 CustomerID )， 因 而 代理 码 才 是 主 码 ， 而 原始 操作 码 现 在 则 用 于 连接 
代表 相同 实际 对 象 的 多 个 记录 。 如 果 我 们 想 分 析 顾 客 Susan 的 购买 记录 ， 可 以 看 到 所 有 与 
CustomerID 为 222 的 维度 记录 相关 的 销售 事实 记录 。 然 而 ， 帮 希望 观察 TaxBracket 为 High 
的 顾客 的 购买 模式 ， 我 们 可 以 将 与 Customer 维度 中 第 3 条 记录 相关 的 事实 表 中 的 销售 记录 
以 及 与 Customer 维度 中 第 4 条 记录 相关 的 销售 记录 结合 起 来 。 换 言 之 ， 只 能 包括 由 Susan 
产生 的 购买 记录 ， 因 为 只 有 Susan 的 TaxBracket 为 High - 

Type2 方法 是 最 常用 的 处 理 缓慢 变化 维度 的 方法 。 该 方法 可 以 直接 处 理 维度 属性 改 变 较 
多 的 情况 。 

Type2 方法 通常 要 结合 维度 中 的 附加 列 使 用 ， 即 时 间 惟 (timestamp )。 时 间 惟 表明 了 记 
录 的 值 可 以 应 用 的 时 间 段 。 时 间 惟 列表 明了 因 维 度 记 录 中 值 的 改变 而 向 每 个 列 输入 的 起 始 和 
结束 日 期 。 另 一 个 名 为 行 指示 符 (row indicator) 的 列 也 可 以 添加 到 整个 表 中 ， 该 列 的 角色 
是 提供 一 个 快速 标识 ， 用 以 指示 当前 哪些 记录 是 有 效 的 。 假 设 顾客 表 包 含 了 自 2000 年 1 月 
1 日 起 的 数据 ， 并 假设 2008 年 1 月 1 日 时 Susan 的 TaxBracket 值 变 为 了 High， 则 下 面 的 例 
子 用 Type2 方法 演示 了 时 间 戳 以 及 行 指 示 需 的 使 用 : 

CUSTOMER 


CustomerKey | CustomerlD | CustomerName | TaxBracket | Effective | Effective Row 
StartDate | EndDate Indicator 











一 一 
| 2 | 222 Susan Medum |1.1.2000 | 12.31.2007 
4 | 222 | Susan High 1.1.2008 


EffectiveStartDate 以 及 EffectiveEndDate 指示 每 行 值 的 有 效 时 间 区 间 .。“na”(not 
applicable) 表明 该 行 的 值 依 然 有 效 ， 目 前 没有 终止 时 间 。 在 实际 实施 过 程 中 ,“n/a” 往 往 会 
记录 为 一 个 更 远 的 日 期 来 简化 一 些 时 间 相 关 的 查询 ， 如 用 9%999 年 12 月 31 日 代替 “ 

行 指示 顺 能 快速 从 历史 数据 行 的 所 有 列 中 区 分 出 包含 有 效 数 据 的 行 。 


8.12.3 Type3 方法 


Type3 方法 可 用 于 如 下 几 种 情况 。 一 种 情况 是 维度 中 每 列 可 能 发 生 改 变 的 数量 是 确定 
的 ， 另 一 种 情况 是 只 对 有 限 的 历史 进行 记录 。Type3 方法 会 为 维度 表 中 每 个 发 生 改 变 的 列 创 
建 一 个 “历史 值 ” 列 以 及 一 个 “当前 值 ” 列 。 

这 里 同样 用 演示 Typel 与 Type2 的 例子 来 说 明 Type3 。 

假设 下 表 是 一 张 缓慢 变化 的 维度 表 : 

CUSTOMER 


CustomerKey | CustomerlD | CustomerName | TaxBracket 
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假设 Susan 的 TaxBracket 属性 值 已 经 由 Medium 变 为 High。 若 应 用 Type3 方法 ， 结 来 


CustomerName | Previous Current 
TaxBracket | TaxBracket 
Low 


Susan Medium High 


有 两 个 为 TaxBracket 属性 创建 的 单独 的 列 : 一 个 为 TaxBracket 的 当前 值 ， 一 个 为 Tax 
Bracket 的 历史 值 。Type3 方法 适用 于 以 下 情形 : 顾客 的 TaxBracket 只 能 改变 一 次 ， 或 在 进 
行 该 组 织 机 构 的 分 析 时 只 需要 顾客 TaxBracket 属性 的 两 个 最 近 的 值 。 

Type3 方法 常 与 时 间 惟 结合 起 来 使 用 。 下 面 是 用 Type3 方法 说 明 时 间 惟 的 例子 : 


CUSTOMER 
CustomerName | Previous Previous Current Current 
TaxBracket | TaxBracket TaxBracket | TaxBracket 
EffectiveDate EffectiveDate 


如 下 : 


CUSTOMER 


CustomerKey | CustomerlD 


1 | 111 











CustomerKey Custom erid 









处 理 缓慢 变化 维度 时 ， 最 常用 的 选择 是 Typel 、Type2 或 Type3 ， 或 将 这 些 方 法 结合 
用 ,需要 根据 维度 中 多 个 属性 可 能 发 生 改变 的 实际 情况 而 定 。 


8.13 ”其 他 维度 建 模 问题 
我 们 简单 地 用 与 维度 建 模 相关 的 几 个 其 他 问题 来 总 结 有 关 维 度 建 模 概 念 的 讨论 。 


8.13.1 雪花 模型 


将 星 形 模式 中 的 维度 设计 为 一 个 非 规范 的 表 ， 而 表 中 的 数据 可 以 划分 到 知 干 规范 表 
之 间 ， 这 样 的 情况 比较 常见 。 例 如 ， 图 8-24 中 的 PRODUCT 维度 包含 了 有 关 产 品 、 种 类 
以 及 供应 商 的 信息 ， 这 些 信 息 可 以 被 划分 到 3 个 规范 表 中 : PROCUDT、CATEGORY 以 
及 VENDOR。 知 维度 模型 中 的 维度 是 规范 的 ， 这 种 模型 称 为 雪花 模型 ( snowflake model) 。 
图 8-30 给 出 了 图 8-24 中 星 形 模式 的 一 个 雪花 模型 版 本 〈 即 规范 后 的 版 本 )。 

在 实际 情况 下 ， 雪 花 模 型 通常 并 不 用 于 维度 建 模 中 。 维 度 建 模 中 不 使 用 雪花 模型 的 原 
因 之 一 在 于 ， 非 规范 〈 即 非 雪 花 模 型 ) 维度 的 目的 是 使 分 析 过 程 更 简单 。 而 规范 的 星 形 模式 
在 考察 分 析 过 程 时 将 形成 大 量 关系 表 ， 这 增加 了 过 程 的 复杂 性 。 比 较 图 8-24 与 图 8-30 的 模 
式 。 寿 两 种 模式 都 已 实现 ， 它 们 最 终 都 会 包含 相同 的 数据 。 然 而 ， 使 用 图 8-24 的 分 析 人 员 
仅 利 用 4 个 维度 便 可 进行 销售 相关 的 任务 分 析 ， 而 使 用 图 8-30 的 分 析 人 员 进 行 同样 的 分 析 
则 需要 7 个 维度 。 

维度 建 模 过 程 中 不 使 用 雪花 模型 的 原因 之 二 在 于 ， 对 于 分 析 型 数据 库 来 说 ， 规 范 化 并 不 
是 必须 的 。 回 顾 第 4 章 的 内 容 ， 对 操作 型 数据 库 进 行规 范 化 的 主要 原因 是 为 了 避免 更 新 异 
弟 。 上 再 回顾 第 7 章 的 分 析 型 数据 库 ， 如 数据 仓库 和 数据 集 市 ， 它 们 并 不 会 受到 更 新 异常 的 影 
啊 ， 因 为 这 些 数据 库 是 “附加 且 只 读 ” 的 。 由 于 维度 建 模 主要 用 于 设计 不 会 被 更 新 异常 影响 
的 分 析 型 商务 智能 数据 库 ， 因 而 用 于 防止 更 新 异常 的 规范 化 过 程 就 不 必要 了 。 
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CATEGORY 
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CategoryName 

















CALENDAR PRODUCT 
CalendarKkey ; ProductKey 
FuliDate | | productlD 
DayGfWeex | ProductName 
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Month 
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VENDOR 


VendorKey 
vendorID 


VendorName 
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StoreKey ‘Fx) 


ProductKey [Fr 
CustomerKey IFr | 


DollarsSold 
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STORE 
StoreKey 
StorelD 
StoreZip 
RegionKey IFKI) 











CustomerKey 
CustomerlD 
CustomerName 
Customerzip 
CustomerGender 
CustomerMarnitalStatus 
CustornerEductionLevel 
CustomerCreditScore 





























REGION 


RegionKey 
RegionID 
ReglonName 


图 8-30 图 8-24 所 示 的 维度 模型 的 雪花 版 本 








8.13.2 立方体 

关系 模型 并 不 是 实现 维度 模型 数据 库 的 唯一 方法 ， 男 一 个 方法 是 使 用 立方 体 。 从 概念 上 
来 说 ， 使 用 关系 模型 或 使 用 立方 体 实 现 的 维度 模型 之 间 没 有 任何 区 别 ， 概 念 设计 依然 与 创建 
维度 和 事实 表 有 关 ， 而 区 别 仅 存在 于 物理 实现 过 程 中 。 第 9 章 将 给 出 立方 体 的 概述 ， 并 说 明 
维度 模型 的 关系 型 实现 与 立方 体 实 现 之 间 的 异同 ， 以 及 相关 的 性 能 和 容量 问题 。 


8.14 数据 仓库 (数据 集 市 ) 建 模 方法 


现代 数据 建 模 方 法 为 数据 仓库 和 数据 集 市 等 分 析 型 数据 库 的 设计 提供 了 若干 选择 。 下 面 
列 出 了 最 常见 的 三 种 方法 : 

e 规范 化 数据 仓库 。 

。 维度 建 模 数据 仓库 。 

。 独立 数据 集 市 。 

这 些 方 法 的 区 别 在 于 如 何 利用 本 书 前 面 章 节 介绍 的 数据 建 模 技术 。 本 章 的 余下 部 分 将 说 
明 并 演示 这 些 技术 的 基本 概念 及 其 异同 . 


8.15 规范 化 数据 仓库 


建 模 数 据 仓 库 的 方法 之 一 ， 就 是 把 数据 仓库 看 作 一 个 用 ER 建 模 以 及 关系 型 建 模 集 
成 得 到 的 分 析 型 数据 库 ， 其 结果 就 是 一 个 规范 化 的 关系 型 数据 库 模 式 。 规 范 化 数据 仓库 
( normalized data warehouse) 的 数据 来 源 有 : 操作 型 数据 源 中 通过 ETL 过 程 得 到 的 对 分 析 有 
用 的 数据 、 提 供 维 度 建 模 数据 集 市 的 数据 源 以 及 其 他 无 量 纲 的 对 分 析 有 用 的 数据 集 。 数 据 仓 
库 作 为 一 种 规范 化 的 集成 分 析 型 数据 库 ， 最 早 由 Bill Inmon 提出 ， 因 此 规范 化 数据 仓库 方法 
通常 指 Inmon 方法 。 图 8-31 所 示 为 一 个 规范 化 的 数据 仓库 。 


后 可 参考 《 Building the Data Warehouse 》， 第 4 版 ，W.H.Inmon (Wiley，2005 )。 
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图 8-31 一 个 规范 化 的 数据 仓库 


该 方法 的 思路 是 将 一 个 中 心 数据 仓库 建 模 为 ER 模型 ， 因 此 可 以 映射 为 一 个 规范 化 的 关 
系 型 数据 库 模 型 ， 规 范 化 的 关系 型 数据 库 则 用 作 数 据 仓库 的 物理 存储 。 所 有 基础 的 操作 型 数 
据 源 的 集成 都 将 发 生 在 中 心 规范 化 数据 库 模 式 之 中 。 一 旦 数据 仓库 已 经 构建 完成 且 由 基础 源 
通过 ETL 架构 得 到 的 数据 填充 好 ， 则 基于 这 种 完全 集成 的 数据 库 ， 各 种 对 分 析 有 用 的 视图 、 
子 集 以 及 提取 等 操作 都 是 可 实现 的 。 规 范 化 数据 仓库 得 到 的 分 析 型 数据 集 ， 其 主要 类 型 之 一 
实际 就 是 一 种 维度 建 模 的 数据 集 市 ， 可 以 使 用 OLAP/BI 工具 ( OLAP/BI 工具 将 在 第 9 章 中 
阐述 ) 进行 查询 。 这 种 由 更 大 的 数据 仓库 得 到 的 数据 集 市 ， 可 用 作 视 图 (虚拟 表 ) 或 者 物理 
提取 ， 该 数据 集 市 称 为 独立 数据 集 市 。 

此 外 ， 当 分 析 和 决策 支持 需要 用 到 无 量 纲 数据 集 时 ， 这 种 数据 集 也 可 以 通过 提取 得 到 。 
例如 ， 一 些 分 析 人 员 或 数据 挖掘 工具 等 分 析 型 应 用 (数据 挖掘 将 在 附录 G 中 进行 讨论 ) 需要 
结合 多 个 规范 化 数据 仓库 的 数据 来 查询 一 个 大 的 表 。 


8.16 规范 化 数据 仓库 实例 
为 了 说 明 如 何 使 用 ER 建 模 及 关系 型 模式 映射 建 模 规范 化 数据 仓库 ， 我 们 再 一 次 使 用 





ZAGI 零售 公司 的 例子 。 

假设 ZAGI 零售 公司 需要 使 用 ER 建 模 技术 为 分 析 其 销售 额 设计 一 个 规范 化 数据 仓库 。 
设计 该 数据 仓库 的 必要 条 件 如 下 。 

ZAGI 零售 公司 需要 创建 一 个 分 析 型 数据 仓库 来 分 析 销 售 额 。 

3 个 可 用 数据 源 如 下 : 


数据 源 1: 如 图 8-13 和 图 8-14 所 示 的 ZAGI 零售 公司 销售 部 门 数 据 库 。 
数据 源 2: 如 图 8-6 所 示 的 ZAGI 零售 公司 设备 部 门 数 据 库 。 
数据 源 3: 如 图 8-7 所 示 的 顾客 信息 数据 的 额外 表 。 
数据 仓库 需要 能 根据 如 下 方面 完成 销售 总 额 和 销售 总 量 的 分 析 : 
e 日 期 。 
e 时 间 。 
e 产品 ， 包 括 : 
e 产品 名 称 及 价格 ; 
e 产品 种 类 ; 
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e 产品 供 贷 商 。 
e | 顺 客 ,包括 : 
e 顾客 姓名 、 邮 编 、 性 别 、 婚 姻 状 况 、 教 育 程度 、 信 用 评分 。 
e 单个 商店 ; 
e 商店 规模 和 邮编 ; 
e 商店 结账 系统 ; 
e 商店 布局 ; 
e 商店 所 在 区 域 . 
图 8-32 和 图 8-33 演示 了 使 用 ER 建 模 技术 如 何 设计 一 个 基于 这 些 数据 源 和 需求 的 销售 


分 析 数 据 仓库 。 
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图 8-32 ”基于 多 个 数据 源 建立 的 ER 模型 及 关系 型 模式 ， 用 于 ZAGI1 零售 公司 的 销售 额 分 析 
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图 8-33 用 3 个 基础 数据 源 填 充 好 的 图 8-32 所 示 的 关系 模型 


图 8-32 给 出 了 通过 合并 数据 源 1、2 的 ER 模型 以 及 从 数据 源 3 中 添加 属性 从 而 得 到 的 
ER 模型 。 如 需求 所 述 ，ER 模型 提取 了 作为 分 析 主 题 的 销售 总 额 和 总 量 ， 以 及 所 有 中 销售 相 
关 的 必需 属性 。 图 8-32 还 给 出 了 与 ER 模型 相对 应 的 规范 化 关系 模式 。 
注意 图 8-32 ER 图 中 的 几 个 数据 源 的 合并 。 实 体 STORE 在 图 8-13 (数据 源 1) 以 及 
图 8-6 (数据 源 2 ) 中 都 有 出 现 。 实 体 CUSTOMER 在 图 8-13 (数据 源 1) 及 图 8-7 的 一 张 
表 (数据 源 3) 中 都 有 出 现 。 实 体 REGION、PRODUCT、CATEGORY、VENDOR 以 及 
SALESTRANSACTION 只 在 图 8-13 (数据 源 1) 中 出 现 。 实体 CHECKOUTSYSTEM 以 及 
LAYOUT 只 在 图 8-6 (数据 源 2) 中 出 现 。 
实体 STORE 现在 有 3 个 属性 : 
e 商店 编号 ， 在 图 8-13 (数据 源 1 ) 的 实体 STORE 和 图 8-6 (数据 源 2 ) 的 实体 STORE 
中 出 现 . 
e 商店 邮编 ， 只 在 图 8-13 (数据 源 1 ) 的 实体 STORE 中 出 现 
e 商店 大 小 ， 只 在 图 8-6 (数据 源 2 ) 的 实体 STORE 中 出 现 。 
实体 CUSTOMER 现在 有 7 个 属性 : 
e 顾客 编号 和 顾客 姓名 ， 在 图 8-13 (数据 源 1) 的 实体 CUSTOMER 和 图 8-7 的 表 
CUSTOMER (数据 源 3 ) 中 出 现 。 
e 顾客 邮编 ， 只 在 图 8-13 (数据 源 1 ) 的 实体 CUSTOMER 中 出 现 。 
e 顾客 性 别 、 婚 姻 状 况 、 教 育 程度 、 信 用 评分 ， 只 在 图 8-7 的 表 CUSTOMER (数据 源 3 ) 
中 出 现 。 
关系 Uses 和 Has 在 图 8-6 (数据 源 2 ) 中 出 现 ， 关系 LocatedIn、QOccurredAt、SoldVia、 
BuysVia、BelongsTo 及 SuppliedBy 在 图 8-13 (数据 源 1) 中 出 现 。 该 结果 大 体 上 就 是 结合 
了 操作 型 数据 源 相 应 模型 中 对 分 析 有 用 的 (由 需求 指出 的 ) 实体 、 关 系 及 属性 得 到 的 一 个 集 
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成 ER 图 |. 

一 旦 如 图 8-32 所 示 的 关系 模型 在 DBMS 中 得 到 实现 ， 它 就 会 由 3 个 基础 数据 源 中 通过 
ETL 架构 得 到 的 数据 进行 填充 。 该 过 程 的 结果 如 图 8-33 所 示 。 

一 旦 规范 数据 仓库 (如 图 8-32 和 图 8-33 所 示 ) 创建 成 功 ， 它 就 可 作为 集成 数据 库 使 用 ， 
任何 需要 的 分 析 型 数据 集 都 可 以 在 其 中 通过 查看 或 提取 得 到 。 

例如 ， 如 图 8-15 和 图 8-16 所 示 的 维度 建 模 分 析 型 数据 库 就 可 以 基于 图 8-32 和 图 8-33 
所 示 的 集成 规范 数据 仓库 ， 而 不 是 直接 基于 基础 操作 型 数据 源 。 


8.17 维度 建 模 数据 仓库 


另 一 种 方法 是 将 数据 仓库 看 作 是 交错 的 维度 建 模 数据 集 市 的 集合 (如 维度 模型 星座 )， 这 
些 数据 集 市 集成 了 源 目 操作 型 数据 源 中 的 对 分 析 有 用 的 数据 。 该 方法 得 到 了 Ralph Kimball 
的 拥护 ， 也 常常 被 称 为 Kimball 方法 SS。 图 8-34 列举 了 一 个 维度 建 模 数 据 仓库 (dimensionally 


modeled data warehouse) 的 例子 . 






操作 型 数据 源 A | 


操作 型 数据 源 要 \ 


本 > 


ETL 





操作 型 数据 源 Z 
图 8-34 一 个 维度 建 模 的 数据 仓库 


如 图 8-34 所 示 ， 对 于 操作 型 数据 源 的 使 用 与 ETL 过 程 来 说 ， 该 方法 与 规范 化 数据 
仓库 方法 一 样 。 区 别 在 于 用 于 建 模 数 据 仓库 的 技术 不 同 。 在 该 方法 中 ， 首 先 设 计 一 组 常 
用 的 维度 集合 ， 称 为 一 致 维度 ( conformed dimension)。 例 如 ， 在 一 个 零售 公司 中 ， 诸 如 
CALENDAR、PRODUCT、STORE 的 一 致 性 维度 可 以 首先 设计 ， 这 是 因为 它们 通常 会 被 分 
析 主 题 所 使 用 。 之 后 可 添加 与 分 析 主 题 相 关 的 事实 表 。 然 后 创建 一 个 维度 模型 的 集合 ， 该 集 
合 中 的 每 个 事实 表 与 多 个 维度 相连 ， 其 中 一 些 维度 被 多 个 事实 表 共 享 。 除 了 原始 创建 的 一 致 
性 维度 集合 ， 还 要 包含 其 他 必需 的 维度 。 结 果 将 得 到 一 个 数据 仓库 ， 该 数据 仓库 是 一 系列 交 
错 的 维度 建 模 数据 集 市 的 集合 ( 即 一 个 星座 )， 图 8-35 就 是 一 个 例子 。 

如 图 8-35 所 示 ， 数 据 仓库 设计 人 员 可 以 首先 创建 如 下 维度 作为 一 致 性 维度 : 
CALENDAR、CUSTOMER、STORE 以 及 PRODUCT， 和 希望 它们 能 被 事实 表 表 示 的 多 个 分 
析 主 题 所 用 到 。 然 后 根据 要 求 的 两 个 分 析 主 题 ( 即 销售 和 不 合格 品 ) 创建 两 个 事实 表 SALES 
和 DEFECTS。 这 些 事实 表 可 以 方便 地 让 已 有 的 一 致 性 维度 CALENDAR、CUSTOMER、 
STORE 以 及 PRODUCT 随时 与 之 相连 。 一 旦 事实 表 SALES 和 DEFECTS 创建 成 功 并 连接 到 


加 可 参考 《 The Data Warehouse Lifecycle Toolkit 》， 第 2 版 ，Ralph Kimball 等 著 。 
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维度 (SALES 连接 到 CALENDAR、CUSTOMER、STORE、PRODUCT，DEFECTS 连接 到 
CALENDAR、STORE 及 PRODUCT) 后 ， 数 据 仓 库 模 型 就 大 致 形成 了 ， 


CALENDAR PRODUCT 


CalendarKey ProductKey 
FuliDate ProductID 


DayOfWeek ProductName 
DayOfMonth ProductPrice 

Month productVendorName 
Quarter productCategoryName 


Year 






SALES 事实 表 
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STORE CUSTOMER 
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StoreiD 
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CustomerZip 
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图 8-35 由 两 个 数据 集 市 组 成 的 维度 建 模 数据 仓库 
注意 ， 除 了 直接 使 用 OLAP/BI 工具 查询 维度 建 模 数据 人 仓库， 我们 还 可 以 创建 独立 数据 
集 市 以 及 其 他 小 型 视图 、 子 集 ,， 或 者 从 数据 仓库 中 提取 ， 这 些 信 息 可 能 会 被 各 种 分 析 人 员 或 
应 用 所 需要 。 图 8-36 说 明了 这 个 过 程 。 


非 独立 数据 集 市 
维度 模型 





数据 仓库 


构成 数据 集 市 
构成 数据 集 市 


操作 型 数据 源 Z 其 他 提取 、 视 图 或 子 集 


图 8-36 一 个 维度 建 模 数 据 集 市 作为 小 型 分 析 型 数据 集 的 数据 源 





非 独立 数据 集 市 





8.18 ”维度 建 模 数据 仓库 实例 


为 了 说 明 维 度 建 模 如 何 用 于 建 模 数 据 仓 库 ， 我 们 将 使 用 与 规范 数据 仓库 相同 的 ZAGI 零 
[260| ”和 售 公司 的 场景 来 举例 说 明 。 

假设 ZAGI 零售 公司 需要 使 用 维度 建 模 技术 为 分 析 其 销售 情况 设计 一 个 数据 仓库 。 

该 数据 仓库 的 设计 需求 与 本 章 前 面部 分 规范 数据 仓库 的 需求 一 样 。 

ZAGI 零售 公司 需要 创建 分 析 型 数据 库 来 分 析 其 销售 情况 。 
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可 用 的 3 个 数据 源 为 : 
数据 源 1: 如 图 8-13 和 图 8-14 所 示 的 ZAGI 零售 公司 销售 部 门 数据 库 。 
数据 源 2: 如 图 8-6 所 示 的 ZAGI 零售 公司 设备 部 门 数据 库 。 
数据 源 3: 如 图 8-7 所 示 的 顾客 信息 数据 的 额外 表 。 
数据 仓库 需要 能 根据 如 下 方面 分 析 销 售 总 额 和 销售 总 量 : 
e 日 期 。 
e 时 间 - 
e 产品 ， 包 括 : 
e 产品 名 称 及 价格 ; 
e 产品 种 类 ; 
© 产品 供 货 商 。 
e 顾客 姓名 、 邮 编 、 性 别 、 婚 姻 状 况 、 教 育 程度 、 信 用 评分 。 
e 单个 商店 ; 
商店 大 小 和 邮编 ; 
商店 结账 系统 ; 
e 商店 布局 ; 
e 商店 所 在 区 域 。 
图 8-37 和 图 8-38 说 明了 如 何 使 用 维度 建 模 技术 设计 一 个 基于 这 些 数据 源 与 需求 的 销售 
分 析 数 据 仓库 。 
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ee CustomerKey 
CustomerID 
CustomerName 
CustomerZip 
CustomerGender 
CustomerMaritalStatus 
CustomerEductionLevel 
CustomerCreditScore 


图 8-37” 带 有 一 个 主题 (销售 ) 的 维度 建 模 数据 仓库 


在 图 8-37 中 ,维度 CALENDAR、STORE、PRODUCT 以 及 CUSTOMER 包括 需求 中 所 
有 有 关 销 售 数据 分 析 的 必要 属性 ， 都 可 以 首先 创建 。 这 些 维度 被 连接 到 SALES 事实 表 进 行 
分 析 。 如 果 之 后 确定 了 其 他 分 析 主 题 ， 这 些 维度 也 可 以 用 作 未 来 其 他 事实 表 的 一 致 性 维度 。 

在 维度 CALENDAR、STORE、PRODUCT 以 及 CUSTOMER 创建 成 功 后 ,与 两 个 分 
析 主 题 销 售 总 额 和 总 量 相关 的 SALES 事实 表 继 而 被 创建 ，SALES 事实 表 通 过 外 码 与 维度 
CALENDAR、STORE、PRODUCT 以 及 CUSTOMER 相连 。 








StoreKey 
StorelD 
StoreZip 





DollarsSold 
UnitsSotd 












StoreRegionName 
StoreSize 
StoreCSystem 
StoreLayout 
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CALENDAR 维度 


CaiendarKey | Full Date | DayOf DayOrf Year 
Week Month 


0203 [weonesdey [2 | Janvay | O1 [2013] 


ProductID | Product Product | Product Product 
Name Price Vendor Category 
Name Name 


1X1 Zzz Bag $100 
570 
Dum oor | $90 | Paorca Gow |Faaven | 
ex | ow rr [$360 [Moram kro | Comprg | 


STORE 维度 
StoreKey | StorelD | StoreZip | StoreRegion | Store Store Store 
Name Size (m2) Csystem Layout 


60605 |Chicagoland | 35000 


Customer | Customer | Customer Customer 
Zip Gender MaritalStatus EducationLevel 




































CUSTOMER 维度 


CustomerKey | CustomerlD Customer 











Customer 
CreditScore 


















| 3.4.555 


SALES 事实 表 


oiorcomey [Siororey [cranemey [customekey [10 [Tmeoroey [Doerssod [umes 
rw [800 | 
人 2 

人 Ta 


3 

3 1 
ml 0 
PE TS EE 


图 8-38 ”用 3 个 基础 数据 源 填充 好 的 图 8-37 所 示 的 关系 模型 


一 旦 图 8-37 所 示 的 维度 模型 在 DBMS 中 得 到 实现 ， 它 就 会 由 3 个 基础 数据 源 通过 ETL 
架构 得 到 的 数据 进行 填充 。 该 过 程 的 结果 如 图 8-38 所 示 。 
图 8-37 和 图 8-38 所 示 的 维度 建 模 分 析 型 数据 仓库 可 以 作为 集成 数据 库 使 用 ， 任 何 需 要 
262| ”的 分 析 型 数据 集 都 可 以 从 中 通过 查看 或 提取 得 到 . 


8.19 ”独立 数据 集 市 
虽然 与 数据 仓库 数据 建 模 技术 有 关 的 大 部 分 讨论 都 与 上 面 列 出 的 两 个 方法 (规范 化 数据 


人 | 入 


5 








[Se i hi 
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仓库 与 维度 建 模 数据 仓库 及 其 变 本 ) 相关 ， 但 还 有 第 三 种 值得 认可 和 讨论 的 方法 。 该 方法 涉 
Re 


oe AS 
个 组 都 会 创建 单独 的 数据 集 市 ， 这 pe 
些 数据 集 市 与 机 构 中 的 其 他 数据 集 Se ee 
市 间 相 互 独立 ， 因 此 ， 需 创建 并 维 ee 
护 多 个 ETL 系统 . We 天 立信 市 
事实 上 ， 使 用 独立 数据 集 市 方 | | 


法 作为 设计 企业 级 分 析 型 数据 库 的 ff -ee 0 
策略 是 不 合适 的 ， 这 一 点 在 数据 仓 mp | 同 sr | 
达成 了 共识 。 认 为 独立 数据 集 市 是 图 8-39 ”独立 数据 集 市 
一 种 欠 佳 的 策略 ， 其 原因 是 显 而 易 
见 的 。 首 先 ， 该 策略 得 到 的 不 是 一 个 数据 仓库 .而 十 一 个 不 相关 的 独立 数据 集 市 的 集合 。 而 
在 实际 的 组 织 机 构 中 ， 独 立 数 据 即使 可 能 形成 一 个 包含 所 有 必需 的 可 分 析 信 息 的 系统 ， 但 这 
些 信息 却 是 分 散 的 ， 要 分 析 其 中 某 一 个 单元 往往 很 难 甚 至 不 太 可 能 。 不 能 横 跨 整个 企业 进行 
直接 分 析 是 该 方法 的 主要 缺陷 ， 其 次 ， 独 立 数据 集 市 方法 的 男 一 个 缺陷 在 于 存在 多 个 不 相 
干 的 ETL 架构 。 正 如 第 7 草 所 述 ，ETL 通常 是 数据 仓库 或 数据 集 市 项 目 中 最 为 耗 时 有 量 耗 资 
源 的 部 分 。 拥 有 多 个 不 相干 的 ETL 过 程 实际 上 会 造成 对 多 个 耗费 资源 的 相似 过 程 进行 复 市 ， 
这 些 复制 过 程 是 不 必要 的 ， 当 然 就 会 产生 不 必要 的 资源 浪费 。 

尽管 存在 这 些 明 显 的 缺点 ， 但 还 是 有 大 量 企 业 将 分 析 型 数据 存储 作为 独立 数据 集 市 
进行 开发 。 这 看 起 来 目 相 媚 夸 ， 其 原因 在 于 关注 数据 分 析 过 程 时 不 具备 原始 的 企业 级 
视野 。 

组 织 机 构 中 的 一 些 部 门 简单 地 采用 “各 做 各 的 ”方法 来 升 发 用 于 其 分 析 需 要 的 数据 集 市 . 
这 通常 是 由 于 企业 “竞争 ”文化 的 影响 ， 比 起 跨 部 门 合作 ， 每 个 部 门 更 重视 自己 部 门 的 利益 。 
此 时 ， 拥 有 独立 数据 集 市 更 多 地 反映 了 组 织 机 构 的 管理 及 文化 问题 而 不 是 故意 采用 一 种 较 差 
的 数据 仓库 技术 的 结果 . 

此 外 ， 在 一 些 实际 情况 中 ， 组织 方面 、 政 治 方面 以 及 经 济 预 算 方面 的 因素 可 能 促使 机 构 
中 的 某 些 部 门 采 取 单 独行 动 。 在 这 些 场 景 中 ， 组织 机 构 中 的 部 门 或 其 他 团体 在 考虑 数据 分 析 
系统 的 开发 问题 时 ， 要 么 创建 独立 数据 集 市 ， 要 么 只 能 什么 都 不 做 。 在 给 出 的 两 个 选择 中 ， 
独立 数据 集 市 当然 是 一 个 更 好 的 选择 。 

本 章 讨 论 了 有 关 数 据 仓 库 及 数据 集 市 设计 的 最 基础 的 问题 。 下 一 节 给 出 了 一 些 关 于 采用 
维度 建 模 和 ER 建 模 作为 数据 仓库 / 数据 集 市 设计 技术 的 额外 信息 。 


8.20 问题 说 明 : 维度 建 模 与 ER 建 模 作为 数据 仓库 /数据 集 市 设计 技术 的 
比较 


本 章 以 一 个 简单 的 讨论 作为 结束 ， 讨 论 的 内 容 是 比较 维度 建 模 与 ER 建 模 两 种 数据 仓库 / 


数据 集 市 建 模 技术 。 
ER 建 模 是 一 种 帮助 实现 需求 收集 过 程 的 技术 ， 建 模 过 程 中 将 收集 所 有 需求 并 可 视 化 为 








[| 
个 
(DJ 
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ER 模型 结构 : 实体 、 属 性 及 联系 。ER 模型 为 待 创 建 的 数据 仓库 与 数据 集 市 的 需求 ( 即 概念 
模型 ) 提供 了 一 种 清晰 的 表示 。 之 后 数据 仓库 或 数据 集 市 的 ER 模型 被 映射 到 关系 模式 中 ， 
该 关系 模式 继而 被 实现 为 一 个 规范 化 数据 库 从 而 形成 数据 仓库 或 数据 集 市 。 

维度 建 模 既 可 用 于 表示 数据 仓库 或 数据 集 市 〈 即 概念 建 模 )， 也 可 用 于 创建 待 实现 的 数 
据 仓 库 或 数据 集 市 模型 ( 即 逻 辑 建 模 )。 当 维度 建 模 技术 用 于 帮助 实现 数据 仓库 或 数据 集 市 
的 需求 收集 过 程 时 ， 这 一 过 程 会 确定 将 哪些 主题 表示 为 事实 表 ， 哪 些 维度 和 维度 属性 用 于 分 
析 所 选 主题 。 一 有 旦 需求 已 表示 为 维度 模型 ， 维 度 模型 就 可 以 直接 在 DBMS 中 实现 为 数据 仓 
库 或 数据 集 市 的 模式 并 得 以 运转 。 

这 两 种 用 于 建 模 数 据 仓 库 或 数据 集 市 的 方法 ( ER 建 模 与 维度 建 模 ) 并 不 一 定 存在 初 看 
之 下 那么 大 的 差别 。 下 面 的 例子 说 明了 采用 两 种 方法 得 到 的 最 终结 果 的 相关 程度 。 

观察 图 8-32， 该 图 给 出 了 使 用 ER 建 模 技术 进行 数据 仓库 建 模 所 得 到 的 结果 。 若 我 们 
将 SOLDVIA、SALESTRANSACT 关系 连接 到 SALES 关系 ， 为 其 他 关系 添加 代理 码 ， 并 
在 关系 模式 中 添加 CALENDAR 关系 ， 以 此 取代 SALE 表 中 的 Date 属性 ， 则 结果 如 图 8-40 
所 示 ， 

















PRODUCT 
ProductKey VENDOR 
ProductID VendorKey 
ProductName VendorlD 
Productprice VendorName 
VendorKey IFk) 
CategoryKey (Fx) 
CATEGORY 
SALES CategoryKey 
TID CategoryID 
REGION ProductKey (FK) rns eh lab 
RegionKey CustomerKey (FK) 
a StoreKkey (Fk) 
egionName CalendarKey (Fk) 
NoOftems CUSTOMER 
TTime CustomerKey 
CustomerID 
STORE CustomerName 
StoreKey CustomerzZip 
StorelD CALENDAR UerG end 






CustomerMaritalStatus 
CustomerEductionLevel 
CustomerCreditScore 






StoreZip 





CalendarKey (Fk) 
DayofMonth 





StoreSize 
RegionKey (Fk) 
CSKey (FK) 
LTKey (FK) 





Month 
Quarter 
Year 
FullDate 
DayofWeek 








CHECKOUTSYSTEM 
CSKey 
SCID LAYOUTTYPE 
CSystem LTKey 
LTID 
LTType 


图 8-40 一 个 修改 后 的 数据 仓库 模式 


图 8-40 给 出 的 模式 与 图 8-30 给 出 的 雪花 维度 模式 类 似 。 若 在 图 8-40 中 ， 关 系 STORE、 
REGION 、LAYOUT 以 及 CHECKOUTSYSTEM 都 已 经 连接 ， 且 关系 PRODUCT 、VENDOR 
和 CATEGORY 也 已 经 连接 ， 结 有 果 便 会 形成 一 个 与 单纯 的 非 雪花 维度 模式 类 似 的 模式 ， 非 雪 


花 模 式 如 图 8-22 和 图 8-37 所 示 。 
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实际 上 ， 在 建 模 分 析 型 数据 库 时 ，ER 建 模 和 维度 建 模 方法 可 以 在 同一 个 项 目 中 结合 使 
用 。 换言之， 使 用 一 种 技术 来 表示 需求 并 不 会 妨碍 使 用 其 他 技术 进行 建 模 并 最 终 实 现 。 例 
如 ， 维 度 建 模 技 术 可 用 于 需求 收集 过 程 以 实现 原始 需求 的 收集 、 优 化 、 可 视 示 。 根 据 得 到 的 
已 表示 为 事实 表 和 维度 集合 的 需求 ， 在 更 倾向 于 规范 化 数据 仓库 的 情况 下 就 可 以 创建 规范 化 
物理 数据 仓库 的 ER 模型 。 一旦 创建 了 规范 化 数据 仓库 ， 一 系列 独立 数据 集 市 都 可 以 使 用 维 


度 建 模 来 进行 创建 。 


在 建 模 分 析 型 数据 库 时 ， 建 模 技 术 的 选择 在 不 同 场景 下 有 所 不 同 。ER 建 模 和 维度 建 模 
技术 都 是 可 行 的 选择 ， 正 如 我 们 已 经 讨论 的 ， 它们 可 以 在 同一 个 项 目 中 结合 使 用 。 


关键 术语 


aggregated data (聚集 数据 )，243 

aggregated fact table (聚集 事实 表 )，243 

conformed dimension (一 致 维度 )，259 

constellation/galaxy of star (星座 /星系 )，242 

degenerate dimension (退化 维度 )、237 

detailed data (细节 数据 )，243 

detailed fact table (细节 事实 表 )，243 

dimension table/dimension (维度 表 / 维度 )，225 

dimensional modeling (维度 建 模 )，225 

dimensional modeled data warehouse (维度 建 模 
数据 仓库 )，259 

fact table (事实 表 )，225 

granularity (粒度 )，248 

line-item detailed fact table (条 目 级 细节 事实 表 )， 
249 


复习 题 


Q8.1 维度 表 在 维度 模型 中 扮演 什么 角色 ? 
Q8.2 事实 表 在 维度 模型 中 扮演 什么 角色 ? 
Q8.3 ”维度 模型 的 使 用 如 何 简 化 分 析 查 询 ? 
Q8.4 维度 模型 中 事务 标识 器 一 般 如 何 表示 ? 
Q8.5 维度 模型 中 事务 时 间 一 般 如 何 表示 ? 
Q8.6 星座 是 什么 ? 


Q8.7 细节 事实 表 以 及 聚集 事实 表 的 区 别 是 什么 ? 


Q8.8 事实 表 的 粒度 是 什么 ? 

Q8.9 ”处 理 缓 慢 变化 维度 最 常见 的 方法 是 什么 ? 
Q8.10 ”为 什么 雪花 模型 通常 不 用 于 维度 建 模 ? 
Q8.11 请 描述 规范 化 数据 仓库 的 构成 。 

Q8.12 ”请 描述 维度 建 模 数据 仓库 的 构成 。 
Q8.13 


normalized data warehouse (规范 化 数据 仓库 )，255 

row indicator ( 行 指示 符 )，252 

slowly changing dimension (缓慢 变化 的 维度 )， 
250 

snowflake model (雪花 模型 )，254 

star Schema ( 星 形 模式 )，226 

surrogate key (代理 码 )，230 

timestamp【〈 时 间 崔 )，25S2 

transaction identifier (事务 标识 人 码 )，235 

Transaction time (事务 时 间 )，235 

transaction-level detailed fact table (事务 级 细节 
事实 表 )，249 

Typel approach (Typel 方法 )，250 

Type2 approach (Type2 方法 )，251 

Type3 approach (Type3 方法 )，252 


请 描述 用 于 创建 分 析 型 数据 库 的 独立 数据 集 市 方法 . 
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练习 


务 二 部 分 “分 折 型 娄 据 府 





数据 源 1 如 图 8-13 和 图 8-41 所 示 的 ZAGI 零售 公司 销售 部 门 数 据 库 (模式 与 图 8-13 一 样 ， 
















endorID 
a 


VENDOR 










VendorlD | VendorName 


Pe 
Mountain King 












E8.1 考虑 下 面 稍 作 改 变 后 的 ZAGI 零售 公司 场景 . 
ZAGI 零售 公司 需要 创建 一 个 分 析 型 数据 库 来 分 析 其 销售 情况 。 
但 数据 不 同 ， 如 图 8-41 所 示 )。 
数据 源 2: 如 图 8-6 所 示 的 ZAGI 零售 公司 设备 部 门 数 据 库 。 
数据 源 3， 如 图 8-7 所 示 的 顾客 信息 数据 的 额外 表 。 
REGION PRODUCT 
RegionlD ，ReglonName | | ProductID ' ProductName 
到 | wh tr | | 1X1 | Zz? Bag 
| i Tr Ea | | 2X2 Esy Bool 
| 3x3 | Cosy Sork 
STORE pr 


| StorelD | StorsZip | RegioniD 
外 _ 


S2 








一 一 一 | 一 一 
JX5 | Tiny Tent 






| Dura Boaot 








t 
BIGy Tenl 





| 
BIBON 性 | 
| 560605 | 
i 





SALESTRANSACTION 
TID | CustomerlD | StorelD | TDate _ | TTime 








1T10S |23434 | 号 3 3Jan2013 | 800 00 AM 
|T106 | 34.555 | S2 | 3Jan-2013 | 8 15.00 AM 
4 | wi EE i 

LT107 | '§ 3-Jan 2013 | 8:30.00 AM 


T1 14 .555 37 (Jan 2013 | 8 00.00 AM 
es 人 + —— 一 -一 一 一 一 一 一 
T eK S2 | 2Jar 2013 | 8 00.00 AM 


1 2 3.444 | S2 EE 2013 | 8 15 00 AM 




























一 9 吕 
2 Jan 2013 | 830 00 AM 


1.2-334 | 一 Sl 
上 













| S2 




















CATEGORY 










CUSTOMER 
a oy ee 
4 dor 








图 8-41 数据 源 1: ZAGI 零售 公司 销售 部 门 数据 库 数据 集 ( 男 一 个 不 同 的 数据 集 ) 


数据 仓库 需要 能 根据 如 下 方面 分 析 销 售 总 额 和 销售 总 量 : 


se 日期， 包括 : 
。 完整 日 期 ; 
。 星期 ; 
* 份 5 
”季度 ; 
。 年 份 。 
e 有 时间。 
es 产品， 包括: 
。 产品 名 称 及 价格 ; 
有 产品 种 类 
。 产品 供 货 商 。 
e 顾客 ， 包括 : 


。 顾客 姓名 、 邮 编 、 性 别 、 婚 姻 状 次 、 教 育 程度 、 信 用 评分 。 


e 商店 ， 包 括 ， 
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。 单个 商店 : 

。 商店 大 小 和 邮编 ; 

。 商店 收银 系统 ; 

。 障 店 布局 ; 

。 商店 区 域 ， 
图 8-36 说 明了 如 何 使 用 维度 建 模 技术 设计 一 个 基于 这 些 数 据 源 及 需求 的 销售 分 析 数 据 仓库 。 
E8.1a 使 用 图 8-41 中 的 数据 说 明 图 8-42 维度 模型 中 的 表 将 如 何 填 充 。 


CALENDAR 维度 PRODUCT 维度 






















CalendarKey | FullDate | DayOf DayOf Year ProductKey | ProductID | Product Product | Product Product 
| Week Monith Name | Price | Vendor Category 
| | | | | | | | Name Name 
| 一 Ee 
| | | | 1 








CUSTOMER 维度 

Name Gender MaritaiStatus | EducationLevel | CreditScore 
i Wi 
Wi ee ee tt i ps 
ce tt i 


SALES 学 久 


ET EEC 












E8.1b 创建 一 个 包含 集成 事实 表 的 维度 模型 ， 事 实 表 表示 每 个 商店 每 个 产品 的 日 事务 中 售 出 产品 
与 售 出 金额 的 汇总 。 
E8.lc 为 E8.1b 所 创建 的 表 填 充 数据 ， 聚 集 基础 与 填充 图 8-42 中 表 的 数据 相同 。 
E8.2 考虑 下 面 与 城市 警察 局 相关 的 例子 。 

城市 警察 局 需要 创建 一 个 分 析 型 数据 库 来 分 析 其 罚单 收入 。 
有 两 个 可 用 数据 源 ， 数 据 源 1 和 数据 源 2， 如 下 所 示 。 
数据 源 1: 城市 警察 局 维护 的 罚单 违规 记录 数据 库 ， 如 图 8-43 所 示 。 
数据 源 2: 机 动车 辆 部 门 (DMV) 维护 的 车 辆 注册 表 ， 如 图 8-44 所 示 。 
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图 8-43 ”数据 源 1: 城市 警察 局 维护 的 罚单 违规 记录 数据 库 
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VEHICLE REGISTRATION TABLE 


VehicleLPN | VehicleMake | VehicleModel 
[IC 


VehicleYear | OwnerDLN | OwnerName | OwnerGender | OwnerBirthYear | 









图 8-44 数据 源 2: 机动 车辆 部 门 (DMV) 维护 的 车 辆 注册 表 


数据 仓库 需要 根据 如 下 方面 来 分 析 罚 款 收入 : 

















e 日 期 包括 : 。 受罚 人 出 生年 份 。 
。 完整 日 期 ; e 和 车辆 ， 包 括 : 
。 星期 ; 。 车 辆 LPN; 
。 上 月份; 。 车 辆 品牌 ; 
四 季度 : e 车 辆 型 号 ; 
。 年 份 。 。 车 辆 年 份 ; 
e 警 员 ， 包 括 : 。 车 主 DLN; 
。 警 员 编号 ; 。 车 主 姓名 ; 
。 警 员 姓 名 :; 。 车 主 性 别 ; 
。 警 员 级 别 ; 。 车 主 出 生年 份 。 
e 受训 人 ， 包括 : e 训 单 类 型 ， 包括 : 
。 受罚 人 DLN; 。 罚单 种 类 (行驶 类 或 停车 类 ); 二 
“ 认 
。 受罚 人 姓名 ; 。 罚单 违规 ; | 
。 受罚 人 性 别 ; 。 名 单 金额 . 268 | 
图 8-45 说 明了 如 何 使 用 维度 建 模 技 术 设 计 一 个 基于 这 些 数据 源 及 需求 的 罚单 收入 分 析 数 据 仑 库 . 
CALENDAR 维度 PAYER 维度 
CalendarKey PayerKey | 
FullDate payerDLN 
DayOfWeek PayerName 
DayOfMonth PayerGender 
Month PayerBirthYear 
Quarter 
Year TICKETREVENUE 
事实 表 
OFFICER 维度 Calendarkey ‘Fk 
OfficerKey OfficerKey :Fx 
OfficerID PayerKey iFk) VEHICLE 维度 
OfficerName VehicleKkey IFK) VehicleKey 
OfficerRank TickatTypeKey (Fr VehicleLPN 
TicketID VehicleMake 
Amount VehicleModel 
TICKETTYPE 维度 VehicleYear 
TicketTypeKey VehicleOwnerDLN 
TicketCategory VehicleOwnerNarmme 
TicketViolation VehicleDwnerGender 
TicketFee VehicleOwnerBirthYear 
图 8-45 ”关于 主题 罚单 收入 的 维度 建 模 数据 仓库 
E8.2a 使 用 图 8-43 与 图 8-44 中 的 数据 源 说 明 图 8-46 中 的 空 表 应 如 何 填 充 。 269| 


E8.2b 创建 一 个 包含 了 集成 事实 表 的 维度 模型 ， 事 实 表 表示 每 个 警 员 的 日 罚单 收入 汇总 - 
E8.2c ”为 E8.2b 所 创建 的 表 填 充 数据 ， 聚 集 基 础 与 填充 图 8-46 中 表 的 数据 相同 . 
E8.3 考虑 下 面 与 Big Z 公司 相关 的 例子 ，Big Z 公司 是 一 家 汽车 产品 批发 商 - 
BigZ 公司 需要 创建 一 个 分 析 型 数据 库 (数据 仓库 ) 来 分 析 其 订单 数目 。 
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CalendarKey | FullDate | DayOf Feed md wa nd PayerKe PayerDLN | PayerName | Payer Gender | Payer 
Week | Month 


OFFICER 维度 VEHICLE 维度 













Vehicle 





Officer Key | OfficerlD | Dfficer | Officer | 
| Name | Rank Owner 








BirthYear | 














TICKETTYPE 维度 
Ticket 
TypeKey 





| 
Amount 





Ticket Ticket 
TypeKey 1D 








有 两 个 可 用 数据 源 ， 数 据 源 1 和 数据 源 2， 描 述 如 下 。 
数据 源 1: Big Z 公司 人 力 资源 部 门 表 ， 如 图 8-47 所 示 . 
数据 源 2: Big Z 公司 订单 数据 库 ， 如 图 8-48 所 示 。 


HUMAN RESOURCES DEPARTMENT TABLE (EMPLOYEE DATA) 


EmpioyeelD | Name Title EducationLevel | YeafrOfHire 


图 8-47 ”数据 源 1:Big Z 公司 人 力 资源 部 门 表 
数据 仓库 需要 根据 如 下 方面 来 分 析 订 单数 目 : 












e 日 期 ， 包括: 。 顾客 姓名 ; 

。 完整 日 期 ; 。 顾客 类 型 ; 

。 星期 ; 。 顾客 邮编 。 

。 月 份 ; e 人 仓库， 包括: 

。 季度 ; 。 仓库 ID; 

。 年 份 。 。 仓库 大 小 ; | 
e 时 间 。 。 仓库 邮编 。 
e 产品 ， 包括: e 订单 登记 员 ， 包 括 : 

。 产品 编号 ; 。 登记 员 编 号 ; 

。 产品 名 称 ; 。 登记 员 姓 名 ; 

。 产品 类 型 ; 。 登记 员 头 衔 ; 

。 产品 供应 商 名 称 。 。 登记 员 教 育 程度 ; 
e 顾客， 包括: 。 登记 员 雇 佣 年 份 。 


。 顾客 ID; 
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图 8-48 ”数据 源 2: Big Z 公司 订单 数据 库 
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E8.3a 使 用 以 上 数据 源 和 需求 创建 一 个 用 于 Big Z 公司 维度 建 模 数据 仓库 的 维度 模型 。 
E8.3b 使 用 图 8-47 与 图 8-48 中 的 数据 说 明 E8.3a 中 的 维度 模型 表 应 如 何 填充 。 


270 Eg.3e 基于 以 上 数据 源 和 需求 为 Big Z 公司 的 规范 化 数据 仓库 创建 一 个 ER 模型 和 关系 模型 映射 。 
P| E8.3d 使 用 图 8-47 与 图 8-48 中 的 数据 说 明 练 习 3c 中 的 关系 模型 表 应 如 何 填 充 。 
E8.4 考虑 下 面 缓慢 变化 维度 EMPLOYEE 的 例子 。 
EMPLOYEE 






EmployeeKey | EmployeelD | EmployeeName | EmployeeTitle 
E202 Sidney Business Analyst 


| Lena Senior Business Analyst 


假设 Sidney 的 头衔 从 业务 分 析 员 变 为 了 高 级 业务 分 析 员 - 
E8.4a 如果 采用 Typel 方法 来 处 理 缓 慢 变 化 维度 ,给 出 维度 EMPLOYEE (包括 所 有 记录 )。 
E8.4b 如 果 采 用 Type2 方法 来 处 理 缓慢 变化 维度 ， 给 出 维度 EMPLOYEE (包括 所 有 记录 )。 
E8.4c 如果 采用 Type3 方法 来 处 理 缓慢 变化 维度 ， 给 出 维度 EMPLOYEE (包括 所 有 记录 )。 


小 案例 


小 案例 6 Jones Dozers | 

Jones Dozers 需要 创建 一 个 分 析 型 数据 库 来 分 析 其 销售 金额 和 租金 收入 。 唯 一 可 用 的 数据 源 是 
Jones Dozers 销售 和 租赁 数据 库 (第 2 章 小 案例 6 的 图 2-$9 为 ER 图 ， 关系 模式 则 在 第 3 章 小 案例 6 
中 创建 )。 

创建 一 个 维度 模型 ， 从 以 下 方面 实现 销售 和 租赁 收入 分 析 : 

e 日 期 。 

e 收入 类 型 (销售 或 租赁 ) 。 

e 顾客 。 

e 设备 。 

e 销售 员 。 

事实 表 中 的 每 行 表 示 一 个 销售 或 租赁 事务 中 发 生 的 收入 总 金额 。 
小 案例 7 Midtown Memorial 

Midtown Memorial 医院 需要 创建 一 个 分 析 型 数据 库 ， 用 于 分 析 其 病人 的 药物 成 分 摄 入 量 。 唯 一 可 
用 的 数据 源 是 Midtown Memorial 病人 药物 成 分 数据 库 (第 2 章 小 案例 7 的 图 2-60 为 ER 图 ， 关系 模式 
则 在 第 3 章 小 案例 7 中 创建 ) 。 

创建 一 个 维度 模型 ， 从 以 下 方面 实现 摄 人 成 分 分 析 

e 日 期 。 

e 时 间 。 

e 病人 。 

e 护士 。 

e 药物 - 

e 成 分 。 

272 事实 表 中 的 每 行 表示 一 个 病人 在 一 次 药物 摄 入 过 程 中 的 成 分 摄 人 量 (计算 方法 : 次 数 x 数量 )。 
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Database Systems: Introduction to Databases and Data Warehouses 


数据 仓库 的 实现 与 使 用 





9.1 引言 


前 一 章 介 绍 了 数据 仓库 建 模 的 相关 内 容 ， 本 章 将 进一步 关注 后 续 的 数据 仓库 开发 过 程 。 
本 章 不 仅 会 描述 和 展示 数据 仓库 的 实现 步骤 : 创建 数据 仓库 ，ETL 过 程 ， 开 发 数据 仓库 前 端 
应 用 程序 以 及 部 署 数据 仓库 ， 还 会 对 数据 仓库 的 使 用 进行 探讨 。 本 章 将 主要 关注 数据 仓库 在 
OLAP 工具 中 的 使 用 。 

与 第 8 章 中 演示 数据 仓库 建 模 过 程 使 用 的 实例 类 似 ， 本 章 同 样 以 ZAGI 零售 公司 为 实例 
来 演示 相关 内 容 ， 这 里 稍微 扩展 了 实例 以 展示 本 章 包含 的 主题 。 


9.2 创建 数据 仓库 


创建 数据 仓库 涉及 使 用 数据 库 管理 软件 的 一 些 功能 去 实现 数据 仓库 模型 。 数 据 仓库 模型 
是 物理 上 互相 连接 的 数据 库 表 的 集合 。 多 数 情况 下 ， 数 据 仓 库 都 被 建 模 成 关系 数据 库 ， 因 此 
就 需要 使 用 关系 型 DBMS 来 创建 数据 仓库 。 

例如 ， 假 设 ZAGI 和 零售 公司 已 经 完成 数据 仓库 建 模 ， 创 建 了 如 图 9-1 所 示 的 数据 仓库 
模型 。 





CALENDAR PRODUCT 
CalendarKey ProductKey 
FuliDate ProductID 
DayOfWeek ProductName 
DayType SALES 事实 素 ProductpPrice 
DayOfMonth CalendarKey (Fx) ProductVendorName 
Month StoreKey (Fx) ProductCategoryName 
Quarter ProductKey (Fk) 

Year CustomerKey (Fk) 
STORE TID CUSTOMER 
TimeOfDay 


CustormerKey 
CustomeriD 
CustomerName 
CustomerZip 


StoreiKey 
StorelD 
StoreZip 


DollarsSoid 
UnitsSold 





StoreRegionName 
StoreSize 
StoreCSystem 
StoreLayout 


CustomerGender 
CustomerMaritalStatus 
CustomerEducationLevel 
CustomerCreditScore 





9-1 一 个 数据 仓库 模型 


创建 本 例 中 的 数据 仓库 需要 使 用 图 9-2 所 示 的 5 条 CREATE TABLE SQL 语句 。 当 这 5 
条 语句 执行 完 后 ， 便 会 生成 数据 仓库 表 。( 创 建 数据 仓库 时 ， 除 了 要 使 用 CREATE TABLE 
语句 外 ， 还 包 插 一 些 与 数据 仓库 物理 实现 相关 的 操作 ， 如 建立 索引 。) 目前 越 来 越 流行 使 用 
ETL 架构 来 创建 数据 仓库 表 。 


区 癌 
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CREATE TABLE calendar 











( calendarkey INT, 
fulldate DATE, 
dayof week CHAR (15), 
daytype CHAR (20), 
dayofmonth NE， 
month CHAR (10) ， 
quarter CHAR (2) ， 
year INT, 
PRIMARY KEY (Calendarkey) ) ; 











CREATE TABLE store 










( storekey INT, 
storeid CHAR (5), 
storezip CHAR (5), 
storeregionname CHAR (15), 
storesize INT, 
storecsystem CHAR (15), 
storelayout CHAR (15), 
PRIMARY KEY (SOrekeY) ) ; 










CREATE TABLE product 








( productkey INT, 
productid CHAR (5S), 
productname CHAR (25), 
productprice NUMBER (7,2), 
productvendorname CHAR (25), 
productcategoryname CHAR (25), 
PRIMARY KEY (productkey) ) ; 











CREATE TABLE customer 













( customerkey INT ， 
Customerid CHAR (7), 
customername CHAR (15), 
customerzip CHAR (5), 
customergender CHAR (15), 
customermaritalstatus CHAR (15) ， 
customereducationlevel CHAR (15), 
CuUustomercreditscore INT ， 
PRIMARY KEY (customerkey)).; 











CREATE TABLE sales 















( calendarkey INT ， 
storekey INT, 
productkey INT, 
Customerkey INT, 
Cid CHAR (15), 
timeofday TIME, 
dollarssold NUMBER (10,2) ， 
unitssold INT, 
PRIMARY KEY (productkey, tid), 
FOREIGN KEY (calendarkey) REFERENCES calendar, 
FOREIGN KEY (storekey) REFERENCES store, 
FOREIGN KEY (productkey) REFERENCES product, 
FOREIGN KEY (customerkey) REFERENCES customer); 





9-2 ”创建 图 9-1 数据 仓库 模型 中 的 表 结 构 


旬 9 划 浇 据 合 敢 办 实现 与 信用 263 


9.3 ETL:; 提取 、 转 换 、 加 载 


当 数 据 仓库 建 模 完成 后 ， 随 后 便 是 使 用 DBMS 软件 创建 一 系列 的 空 数据 仓库 表 (如 图 
9-2 所 示 )。 接 下 来 要 向 这 些 空 表 中 插入 数据 。 从 操作 型 数据 库 中 提取 数据 仓库 表 中 的 相关 数 
据 需 要 一 套 流 程 。 这 套 流程 便 是 ETL (提取 ， 转 换 ， 加 载 ) 过 程 。 

我 们 将 扩展 ZAGI 零售 公司 实例 来 展示 ETL 过 程 。 图 9-1 中 表 的 数据 来 自 下 面 三 个 数据 源 : 

数据 源 1: 图 9-3 和 图 9-4 所 示 的 ZAGI 零售 公司 销售 部 门 数据 库 。 


Ce ) Ce 
ProductName Ca ) VendorName 
REGION 


dr 1/ 


CateQgorylD 
Ce > 
Ci 


SALES \ 





PRODUCT 
ProductID 
ProductName 
REGION productPrice VENDOR 
RegionID VendorlD (Fx) VendorID 
RegionName CategorylD (Fx) VendorName 
STORE SOLDVIA 
StoreID ProductID (Fx) CATEGORY 
StoreZip TID Fx) CategoryID 
RegioniD (Fx) NoOfIltems CategoryName 
CUSTOMER 
SALESTRANSACTION CustomeriD 
CustomerName 


CustomerZip 


StoreID (sx } 
CustomerlD (Fx) 





图 9-3 ”数据 源 1: ZAGI 零售 公司 销售 部 门 数据 库 ER 图 以 及 相应 的 关系 模型 


213 
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REGION PRODUCT 


Tnstate 











ProductiD | ProductName | productprice CategoryID 
Eve so lw 
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DraBoo | $50 | 
T 





SOLDVIA 


ET TE 












1-Jan-:2013 | 8.23:59 AM 


1:Jan-2013 | 8:24:30 AM 


S? 
2-Jan-2013 | 8 15:08 AM 
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S 
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| T71000 | 2-3.444 


图 9-4 数据 源 1: 图 9-3 所 示 ZAGI 零售 公司 销售 部 门 数据 库 中 各 个 表 的 数据 记录 


数据 源 2， 图 9-5 所 示 的 ZAGI 零售 公司 设备 部 门 数据 库 . 
数据 源 3: 图 9-6 所 示 的 顾客 统计 数据 的 额外 表 ， 


CHECKOUT 
SYSTEM 


Di 
CntrID CntrName 
CONTRACTOR < > LAYOUT 


WW 


BuiltBy 


‘A 
d STORE pb 


图 9-5 数据 源 2: ZAGI 零售 公司 设备 部 门 数 据 库 
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STORE 










storeID 
StoreSize 
CSID (FK) 
LayoutID (Fx) 





CHECKOUTSYSTEM 











BUILTBY 
StoreID (Fx) 
CntrID (Fx«) 
CONTRACTOR 


CntrID 
CntrName 


















Layout 




















CONTRACTOR CHECKOUTSYSTEM LAYOUT 


cntnD [cntrName csp LayoutD 
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BUILTBY STORE TABLE 
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图 9-5 ( 续 ) 


= Ne > 上 
ETL 染 构 从 三 个 数据 源 (图 9-3、 CUSsTOMER TABLE 


iri nese eine Ein ett = i Ee 
对 数据 进行 转换 ， 并 且 将 数据 加 载 到 | Name Status | Level Score 
数据 仓 计 ， 最 终生 成 如 图 9.7 所 示 的 [2833 |ina |Female | Sngle |Colege 
壤 充 后 的 数据 仓库 。 为 了 更 详细 地 


演示 ETL 流程 ， 我 们 将 对 图 9-3、 图 
和 9-6 “数据 源 3， 顾客 统 j 
9-4、 图 9-5 以 及 图 9-6 所 示 的 数据 源 图 9-6 数据 源 3: 顾客 统计 数据 的 额外 表 


系统 如 何 产 生 如 图 9-1 (模型 ) 以 及 图 9-7 (成 分 表 ) 所 示 的 目标 数据 仓库 的 过 程 进行 详细 描述 。 

1. 提取 

提取 是 指 从 操作 型 数据 库 中 检索 出 最 终 将 被 加 载 到 数据 仓库 的 对 分 析 有 用 的 数据 。 在 上 
述 ZAGI 和 零售 公司 的 实例 中 ， 提 取 是 指 从 三 个 数据 源 即 数据 源 1、 数 据 源 2 以 及 数据 源 3 中 
提取 数据 。 在 数据 仓库 中 对 分 析 有 用 的 数据 将 被 提取 出 来 。 在 图 9-1 所 示 的 数据 仓库 模型 
中 ,数据 源 1 和 数据 源 3 中 的 所 有 数据 都 将 被 提取 出 来 ， 而 数据 源 2 中 有 些 数据 将 被 提取 ， 
有 些 数据 则 不 被 提取 。 特 别 地 ， 数 据 源 2 中 的 CONTRACTOR 表 和 BUILTBY 表 中 的 数据 没 
有 被 提取 。 在 建 模 阶 段 ， 已 经 确定 了 目标 数据 仓库 的 分 析 主 题 是 销售 ， 所 以 建造 商店 的 承包 
商 与 目标 数据 仓库 的 分 析 主 题 是 不 相关 的 。 这 个 结论 也 可 以 从 图 9-1 所 示 的 模型 中 看 出 ， 图 
9-1 所 示 的 模型 中 不 包括 建造 商店 的 承包 商 表 中 的 相关 属性 。 
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筑 二 部 分 分 析 型 烧 据 认 


CALENDAR 维度 


Calendar | FullDate | DayOfWeek | DayType 


1/2/2013 Workday 


1/3/2013 | Thursday 





PRODUCT 维度 























ProductKey | ProductID | ProductName | ProductPrice | ProductVendor | ProductCategory 
Name Name 
Footwear 


4 |4x4 |DuraBoot $90 Pacifica Gear Footwear 
6 


STORE 维度 
ee So SOF Nome” Soci Etom 
Name Size (Im2) | CSystem 
SS 


CUSTOMER 维度 


| CustomerlD 


X44 
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SALES 事实 表 
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图 9-7 一 个 由 数据 源 1、 数 据 源 2 和 数据 源 3 填充 的 数据 仓库 
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即使 承包 商 相 关 数 据 在 一 定 程度 上 能 够 反映 销售 情况 ,但 要 将 承包 商 相 关 数 据 包 含 到 数 
据 仓 库 中 仍然 会 比较 困难 。 首 先 ， 图 9-5 表明 一 个 商店 具有 多 个 承包 商 ， 因 此 商店 的 承包 商 
信息 不 能 作为 维度 STORE 的 一 个 属性 。 其 次 ， 这 个 数据 仓库 分 析 的 主题 是 销售 ， 而 某 个 承 
包 商 的 工作 对 其 所 建造 商店 的 销售 情况 的 影响 是 不 明确 的 。 每 一 个 商店 都 有 多 个 承包 商 ， 并 
且 底 层 数据 源 中 没有 包含 一 个 承包 商 的 工作 量 占 建造 这 个 商店 工作 总 量 的 百分比 信息 。 这 就 
导致 不 能 准确 地 计算 承包 商 对 商店 销售 的 影响 值 。 因 此 ，CONTRACTOR 和 BUILTBY 表 中 
的 数据 不 能 被 加 载 到 目标 数据 仓库 中 。 

什么 数据 会 被 提取 将 由 需求 分 析 和 建 模 阶段 来 决定 。 在 数据 仓库 的 需求 分 析 和 建 模 阶 
段 ， 需 要 检查 可 用 的 数据 源 。 在 创建 ETL 架构 的 过 程 中 ， 数 据 模 型 (已 确定 包含 哪些 底层 
数据 ) 提供 了 提取 程序 的 蓝本 。 数 据 仓 库 开发 团队 也 可 能 会 发 现 某 些 ETL 操作 与 已 经 给 定 
的 数据 模型 的 描述 有 所 不 同 ， 在 这 种 情况 下 ,项目 就 需要 重新 返回 到 创建 ETL 架构 的 需求 
分 析 阶 段 ， 如 第 7 章 图 7-9 所 示 。 正 如 前 面 所 述 ， 在 数据 仓库 开发 的 任何 阶段 都 不 允许 隐 性 
地 改变 需求 ， 创 建 ETL 架构 阶段 也 不 例外 。 需 求 的 任何 改变 都 必须 记录 在 文档 中 ， 并 且 必 
须 反 馈 到 后 续 的 可 视 化 和 模型 里 。 

2. 转换 

转换 是 指 对 已 经 提取 的 数据 的 结构 进行 转换 以 满足 目标 数据 仓库 模型 的 过 程 。 

在 ZAGI 零售 公司 实例 中 ， 转 换 过 程 涉及 以 下 几 步 。 图 9-4 数据 源 1 中 CUSTOMER 表 
的 记录 与 图 9-6 数据 源 3 中 CUSTOMER 表 的 记录 合并 换 句 话说 ， 销 售 交 易 中 的 顾客 数据 
被 合并 到 了 顾客 统计 数据 中 。 然 后 在 每 条 记录 中 加 入 代理 码 ， 这 样 ， 转 换 后 的 数据 就 适合 目 
标 数据 仓库 中 CUSTOMER 维度 的 结构 ， 如 图 9-7 所 示 。 

除了 改变 提取 数据 的 结构 外 ，ETL 过 程 的 转换 部 分 也 包括 控制 数据 质量 ， 甚 至 是 提高 
数据 质量 的 过 程 。 尽 管理 想 情 况 下 底层 的 操作 型 数据 源 所 包含 的 数据 都 是 高 质量 的 ， 但 在 
实际 中 ， 一 些 数 据 源 中 的 数据 仍然 会 存在 数据 质量 问题 ， 如 第 6 章 所 述 。 在 第 6 章 的 那些 
实例 中 ， 转 换 过 程 包含 检测 和 校正 低 质量 的 数据 ， 这 种 转换 操作 称 为 数据 清洗 / 清理 ( data 
cleansing/scrubbing ) 。 

图 9-4 数据 源 1 中 有 两 个 表 中 的 记录 具有 唯一 性 数据 质量 问题 。 特 别 地 ，SALESTR- 
ANSACTION 表 中 的 最 后 一 条 记录 以 及 SOLDVIA 表 中 的 后 三 条 记录 都 是 唯一 性 数据 质量 问 
题 导 致 的 。 数 据 源 1 中 的 数据 实体 对 相同 的 交易 记录 了 两 次 ， 使 用 了 不 同 的 TID 值 (T999 
和 T1000 )。 这 两 条 记录 包含 相同 的 顾客 、 商 店 、 产 品 以 及 交易 发 生日 期 和 时 间 。 数 据 清 
洗 行 为 发 生 在 转换 阶段 ， 识 别 出 唯一 性 数据 质量 问题 ， 并 将 TID 值 为 T1000 的 记录 从 已 提 
取 的 数据 集中 排除 。 相 应 地 ， 这 个 低 质 量 数据 不 会 在 数据 仓库 SALES 事实 表 中 出 现 ， 如 
图 9-7 所 示 。 

除了 校正 底层 数据 质量 问题 外 ， 转 换 过 程 也 可 能 涉及 将 不 同 版 本 数据 源 中 的 相同 数据 进 
行规 范 人 化。 通常 情况 下 ， 各 个 机 构 拥 有 各 上 自 单独 的 操作 型 数据 库 ， 这 些 数据 库 中 往往 会 有 重 
笃信 息 。 例 如 ，ZAGI 和 零售 公司 实例 中 ， 数 据 源 1 和 数据 源 2 数据 库 都 包含 商店 (StoreID 和 
StoreZIP) 这 个 重 玲 信息 。 洗 运 的 是 ， 这 个 信息 在 数据 源 1 和 数据 源 2 中 的 格式 是 完全 相同 
的 。 然 而 ， 数 据 源 1 和 数据 源 3 中 包含 的 顾客 重合 信息 却 具有 不 同 的 格式 。 数 据 源 1 中 ， 表 
CUSTOMER 中 的 顾客 ID 是 3-4-555 (如 图 9-4 所 示 )， 她 的 名 字 是 Pam。 然 而 同一 个 顾客 在 
数据 源 3 的 表 CUSTOMER 中 (如 图 9-6 所 示 )， 其 名 字 记 录 是 Pammy。 转 换 阶 段 识 别 出 这 
两 个 名 字 属 于 同一 个 人 ， 将 选择 其 中 一 个 〈 本 例 中 选用 Pam 这 个 名 字 ) 用 于 CUSTOMER 维 
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度 中 ， 如 图 9-7 所 示 。 

3. 加 载 

加 载 是 将 已 经 被 提取 、 转 换 并 已 保证 质量 的 数据 加 载 到 目标 数据 仓库 。ETL 工具 将 加 
载 做 成 一 个 批 处 理 程 序 ， 即 将 数据 按照 一 定格 式 目 动 地 插入 到 数据 仓库 表 中 。 加 载 初 期 填 
充 最 初 的 空 数据 仓库 表 ， 称 为 首次 加 载 ( first load)。 首次 加 载 涉及 大 量 数据 ， 这 将 取决 于 
新 的 初始 数据 仓库 所 需 数据 的 时 间 范 围 。 后 续 的 加 载 都 是 刷新 加 载 ( refresh load)。 刷 新 周 
期 (refresh cycle) 是 指 加 载 新 的 数据 到 数据 仓库 的 频率 。 刷 新 周期 是 事先 确定 好 的 ， 取 决 于 
数据 仓库 商业 用 户 分 析 的 需要 以 及 系统 的 技术 可 行 性 。 例 如 ,一 个 数据 仓库 可 以 每 天 更 新 一 
次 ， 也 可 以 每 几 小 时 就 更 新 一 次 。 在 所 谓 的 动态 数据 仓库 ( active data warehouse) 中 ， 篆 和 常 
持续 地 进行 微 批 量 加 载 ， 以 确保 数据 仓库 中 数据 接近 实时 更 新 (以 确保 能 够 分 析 最 新 数据 ) 。 

数据 仓库 首次 加 载 数据 源 或 源 文 件 里 的 全 部 数据 ,。 之后， 数据 仓库 按照 确定 的 刷新 周期 
重新 加 载 数 据 源 中 的 新 数据 。 

ETL 架构 使 得 ETL 过 程 变 得 更 容易 。 典 型 地 ,创建 ETL 架构 过 程 包括 使 用 专门 的 ETL 
软件 工具 或 者 目 己 编写 代码 。 由 于 必须 要 考虑 大 量 的 细节 ， 创 建 ETL 架构 常 稼 是 数据 库 开 
发 过 程 中 最 耗 时 的 部 分 。 尽 管 创 建 ETL 架构 耗 时 耗 力 ， 但 是 正确 地 创建 ETL 架构 是 需求 收 
集 和 数据 仓库 建 模 过 程 中 指定 数据 源 到 目标 数据 源 所 必需 的 . 


9.4 在 线 分 析 处 理 


OLAP 是 在 线 分 析 处 理 (online analytical processing ) 的 缩写 。 术 语 OLAP 常常 用 来 与 
另外 一 个 缩写 词 OLTP 作对 比 ，OLTP 表示 在 线 事务 处 理 ( online transaction processing)。 在 
解释 术语 OLAP 之 前 ， 我 们 将 首先 简要 阐明 OLTP 这 个 术语 。 

在 线 事务 处 理 ( OLTP) 是 指 以 操作 为 目的 的 数据 更 新 (如 插入 、 修 改 以 及 删除 )、 查 询 
和 呈现 。 除 了 检索 操作 型 数据 库 中 的 数据 ，OLTP 还 包括 操作 型 数据 库 中 所 有 的 日 常事 务 更 
新 ， 例 如 反映 从 活期 账户 取款 的 事务 或 者 创建 一 个 机 票 预订 事务 。 操 作 型 数据 库 也 经 常 称 为 
“OLTP 系统 ”。 

在 线 分 析 处 理 ( OLAP) 是 指 以 分 析 为 目的 对 数据 仓库 或 数据 集 市 进行 的 数据 查询 和 呈 
现 。 术 语 OLTP 通常 用 于 传统 的 以 操作 为 日 的 的 数据 库 (日 常 ) 事务 中 ， 而 术语 OLAP 则 与 
数据 仓库 和 数据 集 市 相关 。OLTP 与 OLAP 的 男 一 个 不 同 之 处 是 OLTP 系统 能 够 进行 数据 更 
新 、 查 询 和 呈现 ， 而 OLAP 工具 只 能 进行 数据 查询 和 呈现 。OLTP 系统 会 经 常 执 行 插入 、 修 
改 以 及 删除 数据 等 操作 ， 而 OLAP 工具 是 只 读 的 。OLAP 只 用 于 从 分 析 型 数据 存储 中 检索 数 
据 以 进行 决策 。 使 用 OLAP 工具 可 以 快速 地 读 取 和 解释 有 组 织 的 结构 化 数据 ， 从 而 进行 分 
析 以 及 做 出 后 续 基 于 事实 的 决策 。 

术语 OLTP 和 OLAP 在 互联 网 时 代 之 前 就 出 现 了 。 词 语 “ 在 线 ” 在 这 两 个 术语 中 都 有 
用 到 ， 但 实际 与 互联 网 无 关 。 相 反 ,“ 在 线 ” 是 指 计算 机 立即 响应 用 户 请 求 的 一 种 处 理 能 力 。 
如 今 ， 计 算 机 能 够 快速 地 执行 处 理 、 更 新 和 检索 数据 等 操作 ， 这 已 是 我 们 所 熟知 的 事实 。 然 
而 ， 在 创造 术语 OLTP 的 那个 时 代 ， 多 数 电 脑 使 用 的 仍然 是 硬盘 驱动 器 出 现 之 前 的 设备 ， 例 
如 磁带 和 卡片 机 。 词 语 “在 线 ” 在 于 强调 结果 的 即时 性 ， 即 数据 库 系 统 使 用 直接 访问 的 存储 
方式 ， 例 如 硬盘 驱动 器 ， 而 不 是 顺序 ( 慢 速 ) 访问 的 存储 设备 ， 例 如 磁带 。 
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9.5 OLAP/BI1 工具 


用 户 通过 数据 库 管 理 软件 语言 (如 SQL) 可 直接 访问 数据 仓库 。 然 而 ， 另 一 个 更 常见 的 
直接 访问 和 分 析 数 据 的 方法 是 使 用 在 OLAP 工具 (OLAP Tool)。OLAP 工具 也 称 为 Bl 工具 
(Bl Tool， 商 务 智 能 工具 )。 在 本 书 中 ,我 们 将 这 两 个 名 字 结 合 ， 命 名 为 OLAP/BI 工具 。 

OLAP/BI 工具 用 于 维度 模型 数据 的 分 析 。 正 如 第 8 章 所 述 ， 无 论 选择 哪 种 数据 仓库 方 
法 ,终端 用 户 最 终 获 取 的 数据 都 是 按照 维度 模型 结构 组 织 的 。 因 此 ，OLAP/BI 工具 可 以 分 
析 不 同 的 建 模 方 法 所 组 织 的 数据 ， 如 图 9-8 所 示 。 


维度 建 模 数 据 仓库 规范 化 数据 仓库 独立 数据 集 市 


韭 独立 数据 集 市 韭 独立 数据 集 市 独立 数据 集 市 
维度 模型 维度 模型 
非 独 立 数 据 集 市 
维度 模型 
非 独 立 数据 集 市 独立 数据 集 市 
维度 模型 维度 模型 


OLAP/BI 工具 OLAP/BI 工具 


图 9-8 OLAP/BI 工具 作为 不 同方 法 建 模 的 数据 仓库 的 接口 



















数据 仓库 
规范 化 












非 独立 数据 集 市 






OLAP/BI 工具 


OLAP/BI 工具 允许 用 户 使 用 简单 的 单 击 式 的 查询 程序 来 查询 事实 表 和 维度 表 。 基 于 用 
户 单 击 行为 ，OLAP/BI 工具 使 用 数据 仓库 管理 系统 语言 (如 SQL ) 编写 和 执行 代码 来 支持 数 
据 仓 库 或 数据 集 市 查询 。 


9.6 OLAP/BI 工具 功能 


目前 市 场 上 有 多 种 OLAP/BI 工具 (例如 Microstrategy、IBM 的 Cognos-acquired 、SAP 
的 Business Objects-acquired 、Oracle 的 Hyperion-acquired 、Microsoft 以 及 其 他 )。 这 里 ,我 
们 给 出 所 有 OLAP/BI 工具 的 一 些 常 见 功 能 概述 。OLAP/BI 工具 中 分 析 人 员 经 常 使 用 的 三 个 
基本 功能 如 下 : 

e 切片 和 切 块 。 

e 旋转 。 

e 下 钼 和 上 卷 。 

我 们 将 使 用 与 ZAGI 零售 公司 场景 有 关 的 实例 来 展示 这 些 功 能 ， 这 些 实例 基于 图 9-7 所 
示 维 度 建 模 数 据 集 。 

假设 一 个 来 自 ZAGI 零售 公司 的 终端 用 户 想 使 用 OLAP/BI 工具 分 析 图 9-7 所 示 的 涉及 
销售 事实 表 中 所 有 维度 所 有 属性 的 DollarsSold 和 UnitsSold。 在 这 种 情况 下 ，OLAP/BI 工具 
会 给 用 户 提供 如 图 9-9 所 示 的 接口 。 用 户 可 其 在 维度 中 指定 特定 的 DollarsSold 或 UnitsSold 
属性 的 具体 查询 分 析 操 作 ， 只 需 通过 拖 放 方 法 来 选择 所 需 属 性 即 可 。 
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Calendar 


CalendarKey 
FullDate 
DayOfVWeek 
DayType 
DayOfMonth 


StoreRegionName 
StoreSize 
StoreCSystem 
StoreLayout 


ProductKey 
ProductID 
ProductName 
ProductPrice 
ProductVendorName 
ProduciCategoryName 
Customer 
CustomerKey 
CustomerlD 
CustomerName 
CustomerZip 
CustomerGender 
CustomerMaritalStatus 
CustomerEducationLevel 
CustomerCreditScore 
Sales FACTS 


DollarsSold 
UnitsSold 





图 9-9 一 个 典型 的 OLAP/BI 查询 构件 空间 


例如 ， 假 设 分 析 人 员 想 显示 以 下 查询 结果 。 

OLAP Query1 : 对 每 一 个 商店 ， 分 别 显示 每 一 类 产品 在 男性 ( Male) 和 女性 ( Female) 
购物 者 中 的 销售 数量 。 

在 OLAP/BI 工 具 中 指定 这 种 查询 操作 很 简单 。 用 户 在 图 形 界面 接口 中 选择 查询 所 需 的 
属性 ， 拖 动 并 将 其 放 到 图 形 界面 的 查询 构件 空间 中 。OLAP/BI 工具 创建 的 典型 的 基本 查询 
结果 是 一 个 表 型 报告 ， 它 的 行 和 列 标题 来 自 维度 属 性 的 名 字 ， 数 据 内 容 来 自 事实 表 。 这 些 数 
据 按照 满足 查询 条 件 的 方式 进行 组 织 。 

OLAP/BI 工 具 的 典型 查询 构件 空间 包含 纵 轴 、 横 轴 、 页 轴 以 及 事实 区 域 。 通 过 拖 动 纵 
轴 的 维度 属性 ， 用 户 指 定 的 与 纵 轴 维 度 相 关 的 结果 就 会 在 行 上 显示 。 通 过 拖 动 横 轴 的 维度 属 
性 ， 用 户 所 指定 的 与 横 轴 维度 相关 的 结果 将 会 在 列 上 显示 。 

我 们 来 观察 一 下 查询 构件 空间 是 如 何 使 用 的 。 在 OLAP Queryl 中 ， 用 户 可 能 会 拖 动 
STORE 维度 中 的 StoreID 属性 、CUSTOMER 难度 中 的 Gender 属性 、PRODUCT 维度 中 的 
Category 属性 到 一 个 轴 上 。 例 如 ，StoreID 和 Gender 放 到 纵 轴 ，Category 放 到 横 轴 。 同 样 ， 
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SALES 事实 表 中 的 UnitsSold 属性 可 以 拖 放 到 查询 构件 空间 的 事实 区 。 如 图 9-10 所 示 。 
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图 9-10 对 于 OLAP Query1，OLAP/BI 工 具 的 查询 构件 动作 


查询 一 旦 建立 (如 图 9-10 所 示 )， 紧 接着 便 会 执行 ， 其 结果 会 在 屏幕 上 进行 显示 。 图 9-11 
展示 了 一 个 典型 的 OLAP/BI 工 具 将 如 何 显 示 
OLAP Queryl 中 的 结果 。 

当 屏 幕 显 示 出 查询 结果 时 ， 如 图 9-11 所 示 ， 
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Camping Footwear 





用 户 便 可 以 选择 执行 OLAP 的 三 个 基本 功能 : 切 ri 

片 和 切 块 、 旋 转 、 下 钻 和 上 卷 中 的 任意 一 个 。 Male 
对 于 一 个 典型 的 OLAP/BI 工具 而 言 ， 切 片 和 | Store? 

切 块 、 旋 转 以 及 下 钻 和 上 卷 功能 是 简单 的 单 击 和 拖 i 
放 操 作 的 组 合 。 现 在 我 们 将 描述 和 说 明 这 些 功能 。 Store 3 

Female 

9.6.1 切片 和 切 块 Maie 


切片 和 切 块 (slice and dice) 操作 是 从 已 经 显 图 9-11 OLAP Queryl 的 结果 
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如 下 : 


用 户 使 用 OLAP/BI 工具 对 OLAP Queryl 进行 修改 ， 只 显示 商店 1 和 商店 2 中 的 查询 结果 .。 


示 的 结果 里 增加 、 蔡 换 或 者 消除 指定 的 维度 属性 (或 者 是 消除 维度 属性 中 的 指定 值 )。 例 如 ， 
换 名 话说， 商店 3 中 的 查询 结果 将 从 图 9-11 所 示 的 原始 查询 结果 中 “切除 ”。 修 改 后 的 查询 
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OLAP Query2: 对 商店 1 和 商店 2， 分 别 显示 每 一 类 产品 在 男性 和 女性 购物 者 中 的 销售 


图 9-12 展示 了 OLAP Query2 的 结果 ， 针 对 网 9-11 的 结果 创建 了 一 个 切片 和 切 块 操作 。 
除了 消除 维度 属性 或 者 选择 维度 属性 值 ， 切 片 和 切 块 操作 还 可 以 替换 和 增加 维度 属性 。 下 
面 的 例子 说 明了 这 一 过 程 ， 用 户 通过 用 CALENDAR 维度 中 的 DayType 属性 替换 PRODUCT 
维度 中 的 ProductCategory 属性 来 修改 图 9-11 中 的 查询 结果 。 修 改 后 的 查询 语句 如 下 : 
购买 商品 的 数量 。 

片 和 切 块 操作 得 到 的 . 


OLAP Query3: 对 于 每 一 个 商店 ， 分 别 显示 男性 和 女性 购物 者 在 工作 日 和 周末 /节假日 


Store1 


图 9-13 展示 了 OLAP Query3 的 结果 ， 该 查询 是 通过 对 图 9-11 所 示 的 查询 进行 男 一 种 切 
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切片 和 切 块 的 第 一 个 例子 : 
OLAP Query2 的 结果 
9.6.2 旋转 


图 9-13 


切片 和 切 块 的 第 二 个 例子 : 


OLAP Query3 的 结果 
与 切片 和 切 块 操作 不 同 ， 旋 转 ( pivot/rotate) 
操作 不 改变 原始 查询 结果 的 值 ， 它 仅仅 是 对 结果 形 
式 的 重新 组 织 。 
在 接 下 来 的 旋转 操作 的 例子 中 ， 将 使 用 图 9-11 


所 示 的 查询 结果 ， 交 换 ProductCategory 属性 和 
CustormerGender 属性 所 在 轴 的 位 置 ， 这 种 旋转 操 
作 的 结果 如 图 9-14 所 示 。 
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由 于 旋转 操作 不 改变 用 户 看 到 的 结果 值 ， 所 以 
图 9-11 和 图 9-14 所 示 的 查询 语言 相同 。 
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OLAP Query1 : 对 每 一 个 商店 ， 分 别 显示 每 





一 类 产品 在 男性 和 女性 购物 者 中 的 销售 数量 。 


Camping 


Footwear 


图 9-14 旋转 的 第 一 个 例子 
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在 图 9-11 中 ，ProductCategory 在 模 轴 ，CustomerGender 在 纵 轴 。 而 在 图 9-14 中 ， 执 





行 了 旋转 操作 ，ProductCategory 被 旋转 到 纵 轴 ， 而 CustomerGender 被 移 到 横 轴 。 [285 
除了 纵 轴 和 横 轴 ， 大 多 数 OLAP/BI 工具 都 有 一 个 特性 : 所 谓 的 “页 轴 ”。 这 是 一 个 在 旋 
转 操 作 中 可 以 使 用 的 额外 的 轴 。 图 9-15 展示 了 将 图 9-14 所 示 查 询 中 的 属性 CustomerGender 
从 横 轴 旋转 到 页 轴 的 结果 。 如 图 9-15 所 示 ， 页 轴 人 允许 查看 页 轴 属 性 中 的 单 值 属 性 。 在 本 例 
中 ， 表 中 只 给 出 了 女性 购物 者 购买 不 同 商店 每 种 产品 的 数量 。 
通过 单 击 OLAP/BI 工具 上 的 菜单 栏 ， 用 户 可 以 轻松 地 将 一 个 属性 值 (女性 ， 如 图 9-15 
所 示 ) 切换 到 另 一 个 属性 值 (男性 ， 如 图 9-16 所 示 )， 相 应 地 ， 图 9-16 只 显示 了 男性 购买 不 
同 商 店 每 种 产品 的 数量 . 
Sales:Units Sold Sales:Units Sold 
Female Male 
Store 1 Store 1 
Camping Camping 
Footwear Footwear 
Store 2 Store 2 
Camping Camping 
Footwear Footwear 
Store 3 Store 3 
Camping Camping 
Footwear Footwear 
图 9-15 旋转 的 第 二 个 例子 : 页 轴 图 9-16 旋转 的 第 二 个 例子 页 轴 ( 男 一 个 值 ) 
9.6.3 下 外 和 上 卷 
下 外 (drill down) 的 目的 是 使 得 查询 结果 中 的 数据 粒度 更 精细 ， 而 上 卷 ( drill up) 则 是 
使 其 更 粗糙 。 [286] 


接 下 来 使 用 图 9-11 所 示 的 查询 结果 ,将 RRODUCT 维度 从 商品 类 别 ( ProductCategory ) 
下 个 到 商品 名 (ProductName)， 展 开 后 的 查询 语言 表述 如 下 。 

OLAP Query4 : 对 每 一 个 商店 ， 分别 显示 男性 和 女性 购买 者 购买 每 一 类 商品 中 的 每 一 
种 产品 的 数量 。 

图 9-17 给 出 了 对 图 9-11 所 示 结 果 进 行 下 钴 操作 后 得 到 的 OLAP Query4 的 结果 。 
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图 9-17 下 全 的 例子 : OLAP Query4 的 结果 
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下 钻 操作 人 允许 用 户 透 过 不 同 维度 层次 观察 数据 。 一 个 层次 是 维度 中 的 一 组 属性 ， 在 
较 低 层次 时 对 应 一 个 或 多 个 属性 ， 而 在 较 高 层次 时 只 有 一 个 属性 。 例 如 ，ProductName 
和 ProductCategory 在 一 个 层次 里 ， 因 为 每 个 ProductName 都 属于 一 个 ProductCategory， 
而 一 个 ProductCategory 可 以 包含 有 多 个 ProductName。 男 外 ， 考 虑 Store 维 度 的 下 
列 属性 : StoreID、StoreZIP 以 及 StoreRegionName， 这 三 个 属性 存在 如 下 层次 结构 
StoreRegion 一 StoreZIP 一 StoreID， 因 为 : 

e 一 个 StoreID 对 应 一 个 StoreZIP 和 一 个 StoreRegionName。 

e 一 个 StoreZIP 对 应 一 个 StoreRegionName， 但 是 可 以 有 多 个 StoreID 值 。 

e 一 个 StoreRegionName 可 以 有 多 个 StoreZIP 值 和 一 系列 StoreID 值 。 

多 个 商店 可 以 有 一 样 的 邮政 编码 ， 同 样 ， 多 个 邮政 编码 可 以 有 一 样 的 区 域 码 。 一 个 邮政 编 
码 对 应 一 个 区 域 ， 一 个 商店 有 一 个 邮政 编码 ， 因 此 ， 它 也 属于 一 个 区 域 。 这 样 ， 一 个 邮政 编码 
中 的 销售 情况 可 以 分 散 到 每 个 商店 的 销售 情况 (下 钻 ) 或 者 将 其 合并 到 一 个 区 域 里 (上 卷 ) 。 

一 些 维度 可 以 有 多 个 层次 。 例 如 ，STORE 维度 有 下 列 层次 结构 : 

StoreReglonName 一 StoreZIP 一 StorelD 

StoreSlze 一 StoreID 

StoreSystem 一 StorelD 

StoreLayout 一 StorelD 
上 面 描 述 的 层次 结构 也 称 为 外 层次 结构 。 它 们 允许 用 户 把 一 个 层次 的 一 个 值 在 低层 展开 进行 
详细 显示 (下 钻 )， 或 者 将 细节 折 和 至 只 观察 高 层 值 (上 卷 )。 

为 了 显示 上 卷 操 作 ， 我 们 可 以 将 图 9-17 作为 查询 的 起 点 ， 然 后 将 图 9-11 中 的 商品 从 商 
品名 (ProductName) 上 卷 到 商品 种 类 (ProductCategory )。 


9.6.4 OLAP/BI 工具 附加 功能 概述 


进一步 分 析 上 述 例子 可 以 得 出 ， 维 度 模 型 是 OLAP 所 必需 的 。 底 层 数 据 必须 按照 维度 结 
构 进 行 组 织 ， 且 事实 表 将 作为 连接 其 他 一 系列 维度 表 的 中 心 。 若 数据 不 按照 维度 方式 组 织 ， 
三 个 OLAP 基本 操作 将 不 能 有 效 地 或 者 正确 地 执行 。 

除了 切片 和 切 块 、 旋 转 以 及 下 钻 和 上 卷 等 功能 外 ， 现 代 OLAP/BI 工具 还 包含 一 些 其 他 
功能 。 现 代 OLAP/BI 工具 的 一 个 标准 特性 便 是 通过 图 形 化 方式 对 结果 进行 可 视 化 。 例 如 ， 
现在 的 任何 一 个 OLAP/BI 工具 都 可 以 将 图 9-11 所 示 的 查询 结果 按照 图 9-18 的 方式 进行 可 
视 化 展示 。 

除了 一 些 标 准 操 作 (旋转 、 切 片 和 切 块 、 下 外 和 上 卷 ) 以 及 多 样 的 图 形 可 视 化 功能 外 ， 
OLAP/BI 工具 还 可 以 创建 和 检查 计算 后 的 数据 ,确定 相 似 或 相对 差异 ， 进 行 异常 分 析 、 趋 
势 分析 、 预 测 和 回归 分 析 ， 以 及 其 他 有 用 的 分 析 功 能 。 然 而 ， 这 些 功 能 在 其 他 非 OLAP 应 
用 程序 里 也 包含 有 ， 例 如 ， 统 计 工 具 和 电子 制 表 软 件 。OLAP/BI 工 具 与 其 他 应 用 程序 的 本 
质 区 别 在 于 OLAP/BI 工具 很 容易 实现 与 维度 建 模 的 数据 集 市 和 数据 仓库 进行 交互 操作 ， 并 
且 ， 可 在 大 规模 数据 上 进行 OLAP 操作 。 

现在 的 电子 制 表 软件 包 中 包含 一 些 功能 ， 这 些 功能 可 以 在 它们 能 存储 的 有 限 数 据 集 中 执 
行 基本 的 OLAP 功能 。 电 子 制 表 软 件 可 存储 的 数据 比 数据 仓库 或 数据 集 市 存储 的 数据 量 少 
得 多 。 然 而 ， 一 些 电子 制 表 工具 通过 DBMS 工具 配置 后 可 以 直接 访问 维度 建 模 的 数据 集 市 
和 数据 仓库 。 按 照 这 种 方式 配置 的 电子 制 表 软件 实际 上 可 以 视 为 OLAP/BI 工具。 
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Camping Footwear 


图 9-18 ”使 用 图 表 可 视 化 OLAP Query1 的 结果 


许多 现存 的 OLAP/BI 工具 是 基于 网 页 的 ， 它 省 去 了 在 终端 用 户 工作 站 上 安装 软件 的 过 
程 ， 而 是 通过 Web 浏览 器 向 终端 用 户 提供 查询 构造 空间 ， 如 图 9-9 所 示 。 

OLAP/BI 工 具 可 以 基于 不 同 的 架构 方法 。 在 本 章 的 结尾 ， 我 们 将 会 简要 地 阐述 最 常见 
的 OLAP/BI 工具 架构 - 


9.7 OLAP/BI 工具 用 途 


OLAP/BI 工具 有 下 列 两 个 用 途 : 特定 地 直接 分 析 维 度 建 模 数据 ， 以 及 创建 前 端 应 用 程 
序 间接 地 访问 维度 建 模 数 据 。 

特定 的 直接 分 析 发 生 在 用 户 通 过 OLAP/BI 工具 访问 数据 仓库 中 的 数据 ， 以 及 执行 旋转 、 
切片 和 钻 取 等 操作 时 。 这 个 操作 有 时 也 称 为 数据 探查 ,因为 一 个 查询 结果 常常 会 引起 另外 一 
个 新 的 问题 。 例 如 ， 分 析 员 使 用 OLAP/BI 工具 创建 一 个 查询 ， 这 个 查询 的 结果 可 能 会 促使 
另外 一 个 问题 产生 ， 随 后 通过 对 最 初 的 结果 进行 旋转 、 切 片 或 钻 取 操 作 以 得 到 另 一 个 结果 ， 
从 而 解决 问题 。 

除了 特定 的 直接 分 析 ，OLAP/BI 工具 也 常常 用 于 创建 数据 仓库 前 端 应 用 程序 。 数 据 仓 
库 前 端 应 用 程序 可 以 是 由 专业 用 户 使 用 OLAP/BI 工具 创建 的 一 系列 查询 的 简单 集合 。 这 样 
的 查询 集合 可 以 放 在 导航 菜单 栏 中 ， 提 供给 那些 没有 访问 权限 、 没 有 专业 知识 或 者 没有 时 间 
直接 使 用 OLAP/BI 工具 的 数据 仓库 用 户 使 用 。 


9.8 数据 仓库 /数据 集 市 前 端 (BI) 应 用 


大 多 数 情况 下 ， 部 分 数据 仓库 的 潜在 用 户 (通常 占用 户 的 大 多 数 ) 缺少 时 间或 专业 知识 
去 使 用 开放 式 的 数据 分 析 工 具 。 期 望 每 一 个 在 工作 中 使 用 数据 仓库 的 用 户 都 能 够 自己 编写 
SQL 代码 或 者 使 用 专门 的 OLAP/BI 工具 是 不 可 能 的 。 相 反 ， 一些 数据 仓库 和 数据 集 市 的 用 
户 常 通过 前 端 应 用 程序 访问 数据 。 数 据 仓库 / 数据 集 市 前 端 应 用 程序 通常 涉及 商务 智能 ( BI1) 
应 用 程序 。 图 9-19 展示 了 一 个 带 有 前 端 应 用 程序 的 数据 仓库 系统 。 

如 图 9-19 所 示 ， 数 据 仓库 系统 的 前 端 应 用 程序 既 可 以 检索 数据 仓库 自身 的 数据 ， 也 可 
以 检索 依赖 数据 仓库 中 的 数据 子 集 的 数据 集 市 。 当 一 个 公司 将 其 分 析 的 数据 存储 在 一 个 独立 
的 数据 集 市 中 时 ， 前 端 应 用 程序 (BI) 也 可 以 检索 独立 数据 集 市 中 的 数据 。 
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应 用 程序 
操作 型 数据 源 
EN 
ST we | 一 Ca 
mg . 
应 用 程序 





外 部 数据 源 
外 部 数据 源 


源 系统 
图 9-19 一 个 带 有 前 端 应 用 程序 的 数据 仓库 系统 


数据 仓库 /数据 集 市 前 端 应 用 程序 是 将 预先 开发 好 的 查询 集合 组 织 起 来 ， 以 供 终端 用 户 
进行 简单 的 访问 、 导 航 以 及 使 用 。 图 9-20 展示 了 一 个 前 端 数据 仓库 应 用 程序 集合 的 界面 。 

在 这 个 例子 中 ， 提 供 的 每 一 个 应 用 程序 都 包含 一 系列 预先 开发 的 查询 来 检索 数据 ， 这 些 数 
据 是 应 用 程序 指定 的 相关 数据 仓库 中 的 一 部 分 。 例 如 ， 选择 图 9-20 中 销售 比较 分 析 选 项 ， 程 
序 将 给 出 图 9-21 所 示 的 界面 ， 该 界面 包含 来 目 数 据 仓库 的 一 系列 查询 检索 后 的 销售 分 析 数 据 。 


, 销售 比较 分 析 串 
欢迎 来 到 分 析 应 用 中 心 (选择 下 面 的 选项 


1 了 人 让 
销售 比较 分 析 器 商店 销售 比较 | “| 商店 销售 比较 | ”| 商店 销售 比较 
成 本 分 析 中 心 按 季 度 进行 按 月 份 进行 
产品 销售 比较 | ”| 产品 销售 比较 | “| 产品 销售 比较 


供应 链 分 析 
按 季度 进行 按 月 份 进行 按 周 进行 
市 场 分 析 报 表 顾客 销售 比较 | “| 顾客 销售 比较 | “| 顾客 销售 比较 


图 9-20 一 个 数据 仓库 前 端 应 用 程序 集合 的 界面 图 9-21 一 个 数据 仓库 前 端 应 用 程序 的 界面 


选择 图 9-21 中 按 季 度 进行 商店 销售 比较 选项 ， 打 开 一 个 查询 集合 ， 这 个 集合 以 交互 式 
的 表单 呈现 出 来 ， 如 图 9-22 所 示 。 


按 季 度 进 行商 店 销售 的 比较 
选择 参数 


| 了 [ab | [| 
| [ |] [丰年 从 2 中 光度 [| 
I | | 了 = 


图 9-22 预先 开发 的 数据 仓库 查询 界面 


六 
A 
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我 们 假设 在 图 9-22 中 .用 户 选择 如 下 所 示 的 参数 。 


年 份 1: 2012 

年 份 1 中 的 季度 : Q4 (第 4 季度 ) 

年 份 2: 2013 

年 份 2 中 的 季度 : Q3 (第 3 季度 ) 

商店 : 商店 ] 

商店 : 商店 3 

商店 : 商店 7 

商店 : < 未 选择 > 

商店 : < 未 选择 > 290 


一 日 图 9-22 中 所 示 的 参数 选择 好 后 ， 单 击 “运行 ”按钮 ， 则 将 生成 包含 结果 表 以 及 图 
表 的 报告 ， 如 图 9-23 所 示 。 
按 季 度 进行 商店 销售 比较 


2012 Q4 2013Q3 


商店 1 $3,513,678 $3,713,341 
商店 3 $5,453,889 $5,613,111 
商店 7 $4,456,109 $4,151,901 


站 2012 Q4 
$6,000,000 ] 国 2013 Q3 
$5,000,000 
$4,000,000 
$3,000,000 
$2,000,000 
$1,000,000 -| 


$0 





商店 1 商店 3 商店 7 
图 9-23 ”指定 图 9-22 中 参数 值 后 的 查询 结果 


开发 前 端 应 用 程序 包含 创建 一 系列 预先 开发 的 查询 集合 以 及 查询 接口 。 开 发 前 端 应 用 
程序 过 程 可 以 结合 使 用 OLAP/BI 工具 、 其 他 报告 工具 或 者 从 头 开始 编写 人 代码。 例如， 多 数 
OLAP/BI 工具 包含 创建 前 端 应 用 程序 的 功能 ， 如 上 例 所 示 。 注 意 观 察 图 9-22 所 示 的 界面 ， 
它 能 够 查询 基于 维度 建 模 的 数据 ( 按 图 9-1 所 示 的 星 形 模式 建 模 )。 图 9-22 中 的 查询 界面 
是 基于 图 9-9 所 示 的 OLAP/BI 工具 创建 的 。 使 用 图 9-9 所 示 的 界面 ， 开 发 者 可 以 拖 搜 属性 
Year 和 Quarter 到 横 轴 上 ， 属 性 StoreID 到 纵 轴 上 ， 以 及 Sales 事实 表 中 的 属性 DollarsSold 
到 事实 空间 。 这 种 查询 建立 好 后 可 以 得 到 图 9-22 所 示 的 应 用 程序 ， 使 用 这 个 应 用 程序 可 以 
切除 所 有 未 被 用 户 选择 的 年 、 季 度 以 及 商店 。 291 

同 OLAP/BI 工具 一 样 ， 访 问 前 端 应 用 程序 也 可 以 基于 网 页 进行 。 基 于 网 页 的 前 端 应 用 
程序 省 去 了 终端 用 户 在 工作 站 上 安装 软件 的 步 又， 而 是 通过 网 页 浏 览 器 向 终端 用 户 提供 访问 
接口 。 
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9.9 管理 展示 板 
图 9-24 给 出 了 数据 仓库 前 端 应 用 程序 的 一 个 特定 形式 的 界面 ， 称 为 管理 展示 板 。 


管理 展示 板 
按 周 进行 销售 总 量 比较 顾客 数 

$14 000 000 ?1 500 000 
$13 000 000-| $12 524 596 $1 450 000 

$11290 595 $11 163995 $1 400 000 
$1 350 000 
$1 300 000 
$1 250 000 
$1 200 000 
$1 150 000 


$1 000 000 
7 天 销售 量 ”7 天 销售 量 ”7 天 销售 量 1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 


去 年 前 年 





每 区 域 的 10 日 销售 量 产品 分 类 销售 明细 








$3 005 903: 
20% 


$3 066 021: 园区 域 1 






20% 口 区 域 2 
区 域 3 
园区 域 4 其 他 
回 区 域 $ 


图 9-24 管理 展示 板 


管理 展示 板 (executive dashboard) 这 个 术语 表明 它 适合 组 织 中 的 高 层 决策 者 使 用 。 它 包 
含 一 系列 有 组 织 的 、 易 读 的 、 描 述 组 织 性 能 的 重要 查询 。 一 般 情 况 下 ， 使 用 展示 板 基 本 上 不 
需要 训练 和 学 习 。 同 其 他 前 端 数据 仓库 应 用 程序 一 样 ， 管 理 展示 板 也 可 以 是 基于 网 页 的 。 


9.10 ”数据 仓库 部 署 


数据 仓库 部 署 允 许 终端 用 户 访问 数据 仓库 中 新 创建 和 组 织 的 数据 以 及 使 用 数据 仓库 的 前 
端 应 用 程序 。 一 旦 数据 仓库 系统 开发 完成 ， 终 端 用 户 就 可 以 用 它 来 完成 从 数据 仓库 中 获取 数 
据 的 任务 。 部 署 往 往 不 会 针对 所 有 的 潜在 用 户 一 次 性 地 完成 需求 ， 相 反 ， 部 署 过 程 是 逐渐 进 
行 的 。 

同 其 他 多 数 信息 系统 相似 ， 数 据 仓库 系统 在 面向 全 部 终端 用 户 部 署 之 前 ， 通 常 要 经 历 一 
个 测试 阶段 。 在 发 布 所 谓 的 a 版 (alpha release) 期 间 ， 数 据 仓 库 以 及 相关 的 前 端 应 用 程序 
面向 内 部 开发 团队 成 员 部 署 配置 ， 对 其 功能 进行 初步 测试 。 后 续 发 布 的 数据 仓库 系统 版 本 
(所 谓 的 B 版 (beta release) ) 会 选择 一 组 用 户 对 系统 的 可 用 性 进行 测试 。 在 实际 部 署 数据 仓 
库 系 统 之 前 ， 会 根据 测试 阶段 反馈 回来 的 意见 对 系统 进行 修改 。 实 际 部 署 的 数据 仓库 系统 称 
为 发 行 版 (production release ) 。 

本 章 从 业务 设计 者 和 使 用 者 的 角度 描述 了 大 部 分 有 关 数 据 仓 库 实现 和 使 用 的 基础 性 问 
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题 。 接 下 来 将 附加 讲述 一 些 有 关 OLAP/BI 工具 的 数据 库 模 型 以 及 有 关 OLAP/BI 架构 选择 的 


信息 。 
9.11 问题 说 明 : OLAP/B| 工具 数据 库 模 型 


如 前 文 所 述 ，OLAP/BI 工具 是 为 访问 维度 模型 数据 而 设计 的 。 本 节 将 给 出 两 种 不 同 的 
数据 仓库 模型 的 简要 概述 ， 它 们 用 于 存储 维度 模型 数据 : 

e 关系 数据 库 模型 。 

e 多 维 数 据 库 模 型 。 

回忆 一 下 ， 关系 数据库 模型 是 现代 关系 DBMS 软件 包 的 基础 ， 它 被 用 来 实现 当前 多 
数 的 操作 型 企业 数据 库 : 关系 DBMS 软件 包括 Oracle、MySQL、Microsoft SQL Server、 
PostgreSQL 、IBM DB2 以 及 Teradata”。 如 第 3 章 所 述 ， 关系 数据库 模型 是 一 个 二 维 表 的 集 
合 ， 表 中 的 每 一 行 代表 数据 库 中 的 一 条 记录 - 

关系 模型 不 是 实现 维度 建 模 数据 仓库 的 路 一 方式 ， 男 一 个 可 以 实现 维度 建 模 数据 的 方式 
是 多 维 数 据 库 模 型 ( multidimensional database model)。 在 这 个 模型 里 ， 数 据 库 是 所 谓 的 立 
方 体 ( cube) 的 集合 。 从 概念 上 来 看 ， 关 系 模 型 和 数据 立方 体 在 维度 模型 中 没有 区 别 ， 概 含 
设计 仍然 要 创建 具有 事实 表 和 维度 表 的 星 形 模式 ， 其 区 别 在 于 物理 实现 阶段 。 为 了 展示 多 维 
数据 模型 并 将 其 与 关系 模型 进行 比较 ， 我 们 将 使 用 图 9-25 所 示 的 例子 。 









CALENDAR 对 PRODUCT 
| CalendarKey ProductKey 
SALES 事实 表 






CaiendarKey (FK) 
ProductKey (FK) 


StoreKey (FK) 
DollarsSold 










STORE 
a 
图 9-25 一 个 简单 的 维度 模型 


图 9-25 展示 了 一 个 具有 三 个 维度 表 和 一 SALES 事实 表 






中 按 关系 方式 组 织 的 事实 表 。 事实 表 包 含 所 有 | | | so 
连接 维度 表 的 码 ， 以 及 数值 度量 DollarsSold。 [1 |2 1 
一 个 记录 对 应 特定 日 期 特定 商店 特定 产品 的 一 


DollarsSold 值 。 

多 维 数据 库 模 型 可 以 用 具有 多 个 维度 的 数 图 9-26 图 9-25 中 事实 表 的 关系 型 实现 
据 立 方 体 来 表示 。 与 几何 上 的 立方 体 不 同 ， 多 维 数据 立方 体 可 以 多 于 三 个 维度 。 然 而 ， 为 简 
单 起 见 ， 我 们 的 例子 只 使 用 三 个 维度 。 

图 9-27 展示 了 图 9-25 中 按 多 维 方式 实现 的 事实 表 。 立 方 体 的 每 一 格 对 应 特定 日 期 特定 


昌 Teradata 是 专门 针对 大 数据 仓库 而 开发 的 DBMS 的 一 个 例子 ， 而 这 里 提 及 的 其 他 DBMS 既 支 持 操作 型 数据 
库 又 支持 数据 仓库 。 
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商店 特定 产品 的 DollarsSold 值 。 为 了 更 清楚 地 展示 ， 只 显示 了 数量 值 为 $100 的 一 格 ， 它 对 
应 图 9-26 中 SALES 事实 表 的 第 一 行 记 录 。 














两 个 模型 本 质 上 的 不 同 点 是 数据 存储 方法 。 在 关系 模型 
中 ,存储 一 条 记录 会 查找 事实 表 ， 查 找 速度 跟 许多 因素 有 关 ， pe 
例如 如 何 存 储 记 录 或 者 表 中 有 没有 索引 。 在 多 维 立 方 体 中 ， 每 7 

条 记录 都 可 以 直接 查看 ， 从 而 省 去 了 搜索 过 程 。 因为 每 一 格 2 | | | | 





部 有 一 个 地 址 存储 维度 属性 值 ， 所 以 可 以 直接 访问 .为 了 找到 。 
数据 ， 维 度 值 可 用 于 计算 地 址 以 及 直接 访问 每 一 格 的 值 。 例 
如 ， 假 设 进 行 以 下 两 个 检索 : 

e 检索 本 例 中 商店 1， 产 品 1， 日 期 (天 ) 1 

成 (1. 1，1) 的 DollarsSold 值 . 

se 检索 本 例 中 商店 1， 产 品 四 示 成 (1,3,1) 的 DollarsSold 值 。 

在 立方 体 中 ， 维 度 值 (1，1，1 ) 直接 对 应 销售 数量 值 $100， 。 (1。3，1) 直接 
对 应 销售 数量 值 $15。 换 句 话说 ， eb 用 搜索 其 他 记录 。 男 一 方面 ， 0 
中 ， 得 到 目标 记录 需要 读 值 ， 并 将 值 与 其 他 记录 进行 比较 。 例 如 ， is 
表 中 ， 如 图 9-26 所 示 ， 线 性 搜索 ( 1 ，3 ,1 ) 涉及 将 值 (1,3，1 ) 与 表 中 的 第 一 条 记录 ( 1， 
1，1 )、 第 二 条 记录 (1，2，1 ) 进行 比较 ， 直 到 找到 匹配 的 第 三 条 记录 。 

当然 ， 在 实际 的 数据 仓库 数据 集中 ， 搜 索 的 空间 更 大 ， 因 此 ， te des 

库 性 能 和 可 用 性 的 关键 因素 。 立 方 体 的 直接 访问 方式 是 提高 搜索 速度 的 一 种 方法 。 
和 6 章 所 述 ， 关系 表 的 搜索 速度 可 以 通过 使 用 排序 /索引 以 及 不 同 的 搜索 算法 来 得 到 人 


河 下 3- 
aE [a] 2 


图 9-27 图 9-26 中 SALES 


可 以 去 示 。 事实 表 的 多 维 (立方 体 ) 实现 











9.12 ”问题 说 明 : OLAP/BI 工具 数据 架构 方法 


根据 实现 维度 表 和 事实 表 的 数据 仓库 模型 的 不 同 ， 可 以 选择 不 同 的 OLAP/BI 工具 架构 
方法 。 本 节 将 描述 三 种 常见 的 方法 : MOLAP、ROLAP 以 及 HOLAP-。 


9.12.1 MOLAP 


典型 的 多 维 在 线 分 析 处 理 ( multidimensional online analytical processing，MOLAP) 架 
构 如 图 9-28 所 示 . MOLAP 中 的 数据 来 自 数 据 仓 库 或 者 来 自 存储 在 多 维 立 方 体 中 的 操作 型 
数据 源 。 底 层 数据 的 复杂 性 对 MOLAP 工具 使 用 者 是 隐藏 的 。 换 名 话说， 用 户 通 过 通常 的 单 
击 方式 便 可 使 用 其 常用 功能 ， 如 图 9-10 所 示 。 用 户 不 用 了 解 立 方 体 是 如 何 建立 的 ， 也 不 用 
了 解 它 与 关系 表 的 不 同 点 。MOLAP 服务 执行 查询 操作 ， 并 且 将 结果 集合 发 送 给 终端 用 户 的 
OLAP/BI 工具 ， 以 图 9-11 一 图 9-18 所 示 的 方式 呈现 给 用 户 。 如 果 OLAP/BI 工 具 作为 前 端 
悄 用 程序 的 基础 ， 按 图 9-22 所 示 指 定 查 询 操 作 ， 则 将 得 到 图 9-23 所 示 的 显示 结果 。 


地 本 ——— “OLAP/BLIES 
> 结果 
(重新 加 载 ) 构建 立方 体 
(重新 构建 立方 体 ) 


图 9-28 一 个 典型 的 MOLAP 架构 
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一 般 地 ，MOLAP 服务 包含 有 限 的 数据 量 。MOLAP 的 主要 特性 是 可 以 快速 进行 分 析 。 
MOLAP 服务 会 尽 可 能 多 地 预先 计算 结果 并 且 将 这 些 结果 存储 在 立方 体 中 。 

需要 强调 的 是 ， 在 分 析 聚 合 数据 时 ，MOLAP 立方 体 的 执行 效果 很 好 ， 但 是 它们 不 适合 
处 理事 务 层 次 的 细节 数据 。 正 如 本 书 前 面 章节 所 述 ， 事 务 层 次 的 细节 数据 是 最 细 粒 度 的 数 
据 ， 它 的 每 一 条 记录 对 应 现实 生活 中 唯一 确定 的 事务 。 立 方 体 往往 受到 空间 限制 ,一 个 典型 
的 组 织 机 构 中 事务 层次 的 数据 量 常 会 超过 立方 体 的 存储 容量 。 即 使 事务 层次 数据 在 某 种 程度 
上 适合 立方 体 ， 还 会 存在 其 他 问题 ， 如 数据 稀疏 性 ， 使 得 立方 体 不 适合 处 理 非 聚合 数据 。 在 
事务 数据 中 ,大 多 数 维度 的 交集 是 空 集 ， 例 如 ， 如 果 商 品 码 为 2 的 商品 没有 在 商店 码 为 2、 
日 期 码 为 1 的 记录 中 出 现 ， 那 么 格 (2，2，1 ) 就 是 空 的 。 

由 于 立方 体 的 每 一 格 对 应 一 个 直接 地 址 并 且 常 用 的 查询 结果 已 被 预先 计算 ， 所 以 
MOLAP 的 查询 速度 往往 很 快 。 计 算 引 擎 通过 公式 和 转换 可 以 从 存在 的 数据 中 提取 新 的 信 
息 。 预 先 聚 集 的 汇总 数据 和 预先 计算 结果 的 方法 使 分 析 复 杂 的 数据 关系 变 得 快速 和 简单 。 查 
询 “ 处 理 ” 过 程 经 第 可 简化 为 直接 查找 数据 . 

尽管 MOLAP 检索 数据 非常 有 效 ， 但 是 立方 体 的 更 新 非常 慢 。 数 据 加 载 要 花费 几 个 小 
有 时， 立方 体 的 计算 则 要 花费 更 多 时 间 。 这 是 因为 ,每 当 有 新 的 有 效 数 据 时 ， 立 方 体 就 需要 重 
新 加 载 和 重新 计算 ， 如 图 9-28 所 示 。 然 而 ， 分 析 查 询 结果 的 速度 往往 比 加 载 新 数据 和 创建 
更 新 立方 体 的 速度 更 为 重要 

一 般 情 况 下 ， 加 载 到 MOLAP 服务 器 上 的 数据 来 自 关系 DBMS 平台 的 数据 仓库 。 然 而 ， 
存在 这 种 情况 ， 操 作 型 数据 源 的 数据 直接 被 加 载 到 立方 体 中 以 满足 当前 数据 分 析 的 需要 。 在 
这 种 情况 下 ， 立 方 体 本 身 就 是 一 个 数据 集 市 ， 没 有 数据 仓库 。 


9.12.2 ROLAP 


OLAP/BI 工具 的 另 一 个 重要 种 类 是 关系 型 OLAP/BI 工具 ， 通常 称 作 关系 型 在 线 分 析 
处 理 ( relational online analytical processing，ROLAP) 工具 。 典 型 的 ROLAP 框架 的 高 层 视 
图 如 图 9-29 所 示 。ROLAP 工具 也 提供 本 章 之 前 描述 的 常用 OLAP 功能 。 查 询 通 过 标准 的 
单 击 方式 进行 ， 如 图 9-10 所 示 。ROLAP 服务 将 查询 转换 成 SQL 声明 ，SQL 查询 被 发 送 到 
RDBMS 支持 的 数据 仓库 。RDBMS 执行 查询 ， 并 将 查询 的 结果 集合 发 送 到 ROLAP 服务 器 
上 ， 最 终 交 给 OLAP/BI 工具 终端 用 户 。OLAP/BI 工具 按 类 似 图 9-11 一 图 9-18 的 方式 将 结 
果 呈 现 给 用 户 。 如 果 OLAP/BI 工具 作为 终端 用 户 应 用 程序 的 基础 ， 可 按 图 9-22 指定 查询 ， 
结果 将 按 图 9-23 呈现 。 


RDBMS 查询 (SQL 版 本 ) 


查询 去 op i » 查询 终端 用 户 
Woe A WW > NOLAP/BI 工 其 
结果 


图 9-29 ”一 个 典型 的 ROLAP 架构 


ROLAP 架构 对 数据 库 大 小 以 及 可 能 要 执行 的 分 析 类 型 完全 没有 限制 。 然 而 ， 由 于 结果 
没有 被 预先 执行 ， 其 查询 性 能 没有 MOLAP 那么 快 。 

选择 MOLAP 和 ROLAP 时 需要 在 查询 性 能 和 存储 之 间 进 行 权 衡 。ROLAP 能 够 处 理 更 
大 的 数据 量 ， 这 使 得 它 更 适合 处 理事 务 层次 的 详细 数据 。 同 时 ，RDBMS 软件 也 在 不 断 提升 
查询 处 理 的 速度 以 减 小 MOLAP 与 ROLAP 之 间 的 性 能 差距 。 
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9.123 "HOEAP 


混合 型 在 线 分 析 处 理 ( Hybrid online analytical processing，HOLAP) 架构 结合 了 MOLAP 
和 ROLAP 两 种 方法 。 典 型 的 HOLAP 架构 如 图 9-30 所 示 。 








< 恕 查询 终端 用 户 
结果” QLAP/BI 工 上 


图 9-30 一 个 典型 的 HOLAP 架构 


HOLAP 结合 了 以 上 两 种 方法 的 优点 。 在 混合 解决 方案 中 (如 图 9-30 所 示 )， 关 系数 据 
库 可 以 存储 详细 的 事务 层次 数据 ， 多 维 立 方 体 可 以 存储 汇总 数据 。 如 果 OLAP/BI 终端 用 户 
要 查询 精细 粒度 级 别 的 细节 数据 ， 就 可 以 针对 关系 数据 库 进 行 查询 。 另 一 方面 ， 若 查询 存储 
在 立方 体 中 的 汇总 数据 ， 就 可 以 针对 立方 体 进 行 查询 。 


关键 术语 


active data warehouse (动态 数据 仓库 )，280 

alpha release (Q 版 )，293 

beta release (B 版 )，293 

business intelligence (BI1) tool (商务 智能 (BI) 工 
具 )，281 

cube (立方 体 )，293 

data cleansing/scrubbing (数据 清洗 / 清理 )，279 

drill down (下 钻 )，286 

drill up (上 卷 )，286 

executive dashboard (管理 展示 板 )，292 

frist load ( 首次 加 载 )，280 

hybrid online analytical processing, HOLAP ( 混 
合 型 在 线 分 析 处 理 )，297 

multidimensional database model (多 维 数据 库 模 
型 )，293 


复习 题 


multidimensional online analytical processing, 
MOLAP (多 维 在 线 分 析 处 理 )，295 

OLAP/BI Tool (OLAP/BI 工具 )，281 

online analytical processing, OLAP (在 线 分 析 处 
理 )，280 

OLAP tool (在 线 分 析 处 理工 具 )，281 

online transaction processing, OLTP (在 线 事务 处 
理 )，280 

pivot/rotate (旋转 )、285 

production release (发 行 版 )，293 

refresh cycle (刷新 半期 )，280 

refresh load (刷新 装载 )，280 

relational online analytical processing, ROLAP( 关 
系 型 在 线 分 析 处 理 )，296 

slice and dice (切片 和 切 块 )，283 


Q9.1 在 创建 数据 仓库 的 过 程 中 如 何 使 用 数据 库 管 理工 具 ? 


Q9.2 简要 描述 提取 过 程 。 
Q9.3 简要 描述 转换 过 程 。 
Q9.4 数据 清洗 的 目的 是 什么 ? 
Q9.5 简要 描述 加 载 过 程 。 


Q9.6 
Q9.7 

Q9.8 

Q9.9 

Q9.10 
Q9.11 
Q9.12 
Q9.13 
Q9.14 
Q9.15 
Q9.16 


练习 


E9.1 


和 这 9 茧 禾 据 仓 尼 交 突现 与 合用 283 


首次 加 载 和 刷新 加 载 之 间 的 区 别 是 什么 ? 
OLAP 和 OLTP 之 间 的 区 别 是 什么 ? 
OLAP/BI 工具 的 三 个 基本 功能 是 什么 ? 
OLAP/BI 工具 的 两 个 主要 用 途 是 什么 ? 
数据 仓库 / 数据 集 市 前 端 应 用 程序 的 用 途 是 什么 ? 
管理 展示 板 是 什么 ? 

简要 摘 述 数据 仓库 部 团 过 程 。 

关系 和 多 维 数据 库 模 型 之 间 的 区 别 是 什么 ? 
简要 描述 MOLAP 架构 。 

简要 描述 ROLAP 架构 。 

简要 描述 HOLAP 架构 。 


I 
‘© 
1 


| 


考虑 以 下 场景 : Big Z 公司 是 一 家 汽车 产品 批发 商 。 
Big Z 公司 想 创建 一 个 分 析 型 数据 库 (数据 仓库 ) 来 分 析 订 单数 量 。 
两 个 有 效 的 数据 源 ， 数 据 源 1 和 数据 源 2， 描 述 如 下 : 
数据 源 1: Big Z 公司 订单 数据 库 ， 如 图 9-31 所 示 。 
数据 源 2: Big Z 公司 人 力 资源 部 门 表 ， 如 图 9-32 所 示 。 
数据 仓库 必须 对 如 下 订单 量 进行 分 析 : 
bad 日 期 ， 包括 : 

。 完整 的 日 期 ; 

。 星期 ; 

。 日; 

。 月 ; 

。 季度 ; 

。 年 份 。 
e 时 间 。 
© 上 由 ， 包括 : 

。 商品 ID; 

。 商品 名 ; 

。 商品 类 型 ; 

。 商品 供应 商 名 。 
全 顾客 ， 人 包括: 

。 顾客 ID; 

。 顾客 名 ; 

。 顾客 类 型 ; 

。 顾客 邮政 编码 。 
e 人 仓库， 包括 : 

。 仓库 ID; 

。 仓库 大 小 ; 

。 仓库 邮政 编码 。 
® 订单 员 ， 包括 : 

。 订单 员 ID; 

。 订单 员 名 字 ; 
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图 9-31 数据 源 1: Big Z 公司 订单 数据 库 


bE9.1a 


B91B 


E9,2 
E9.3 
E9.4 
BEY. 


免 9 莫 并 据 仓 雍 的 实现 与 使 用 


HUMAN RESOURCES DEPARTMENT TABLE (EMPLOYEE DATA) 


图 9-32 ”数据 源 2: Big Z 公司 人 力 资源 部 门 表 











。 订单 员 教育 级 别 ; 
。 订单 员 雇 佣 年 限 。 
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基于 以 上 列 出 的 数据 源 和 需求 ， 针对 Big Z 公司 建立 一 个 用 于 维度 建 模 数 据 仓 库 的 维度 模 


型 。(E9.1a 的 结果 与 E8.3 的 结果 相同 一 一 着 你 已 经 完成 了 E8.3， 则 可 以 使 用 该 结果 作为 
E9.1a 的 结果 。) 


使 用 图 9-31 和 图 9-32 的 数据 ,演示 E9.1a 维度 模型 中 的 表 是 如 何 组 织 的 。 


e 在 ETL 过 程 中 ， 知 存在 同一 个 人 有 多 个 名 字 的 情况 ， 使 用 最 长 的 名 字 。 
e 在 ETL 过 程 中 ， 识 别 Big Z 订单 数据 库 中 同一 个 记录 拥有 两 个 不 同 订 单 ID(O7 和 08 ) 的 


情况 。 
使 用 图 9-11 
使 用 图 9-11 
使 用 图 9-11 
使 用 图 9-11 


所 示 的 OLAP 查询 1 (基于 图 9-7 中 的 数据 )， 给 出 一 个 旋转 操作 的 例子 。 


给 出 以 下 假设 : 


有 所 示 的 OLAP 查询 1 (基于 图 9-7 中 的 数据 )， 给 出 一 个 切片 和 切 块 操作 的 例子 。 


所 示 的 OLAP 查询 1 (基于 图 9-7 中 的 数据 )， 给 出 一 个 下 钻 操作 的 例子 。 
所 示 的 OLAP 查询 1 (基于 图 9-7 中 的 数据 )， 给 出 一 个 上 卷 操作 的 例子 。 


更 多 练习 可 访问 dbtextbook.com - 


第 三 部 分 


Database Systems: Introduction to Databases and Data Warehouses | 


其 他 主题 


第 10 意 | 


Database Systems: Introduetion to Databases and Data Warehouses 


DBMS 功能 与 数据 库 管理 概述 





10.1 引言 

本 书 的 基本 任务 是 讨论 现代 操作 型 与 分 析 型 数据 库 的 设计 与 使 用 等 相关 问题 。 这 
一 任务 已 经 反映 在 了 前 面 的 各 章 内 容 中 ， 关 注重 点 是 数据 库 的 需求 分 析 、 实 现 及 商业 
使 用 。 

有 关 数 据 库 软 硬件 性 能 、 数 据 库 物 理 存 储 细 节 、 数 据 库 系统 管理 及 其 他 更 多 技术 性 问题 
的 讨论 已 超出 了 本 书 的 研究 范畴 。 而 本 章 将 仅 给 出 DBMS 组 件 及 一 些 数据 库 最 基本 管理 任 
务 的 简要 概述 。 


10.2 DBMS 组 件 


DBMS 主要 用 于 创建 数据 库 ， 完 成 数据 库 中 的 数据 操作 (如 数据 i 


搬入、 存储 、 恢 复 、 更 新 及 删除 )， 以 及 对 数据 库 的 维护 。 一 些 DBMS 数据 定义 组 件 
包 也 可 用 于 创建 前 端 应 用 。 图 10-1 中 给 出 了 上 典型 DBMS 软件 的 主要 | 


数据 操纵 组 件 
组 件 。 


数据 定义 组 件 ( data definition component) 可 供 数 据 库 设计 者 创 





建 数据 库 的 基础 部 件 ， 如 数据 表 以 及 连接 数据 表 的 参照 完整 性 约束 
等 。 第 5 章 中 DDL (数据 定义 语言 ) 类 型 的 SQL 命令 便 可 用 于 这 一 


图 10-1 典型 DBMS 


na 软件 的 组 件 


数据 操纵 组 件 ( data manipulation component) 允许 终端 用 户 插入 、 
读 取 、 更 新 及 删除 数据 库 。 第 $ 章 中 DML (数据 操纵 语言 ) 类 型 的 SQL 命令 可 用 于 这 一 
目的 。 

数据 操纵 组 件 可 以 被 终端 用 户 直 接 使 用 (直接 用 户 )， 或 是 通过 前 疹 应 用 间接 使 用 ( 间 
接 用 户 )。 在 间接 使 用 时 ， 终 端 用 户 应 用 与 数据 操纵 组 件 间 通 过 用 户 行 为 进行 通信 。 在 一 
些 DBMS 包 中 ， 数 据 操纵 组 件 在 同一 时 间 往 往 仅 由 一 个 用 户 使 用 (包括 直接 或 间接 使 用 )， 
这 样 的 系统 称 为 单 用 户 系 统 (single-user system) (如 MS Acess)。 在 一 些 专 业 性 更 强 的 包 
中 ， 数 据 操 纵 组 件 在 同一 时 间 能 直接 或 间接 地 由 多 个 用 户 使 用 ， 这 样 的 系统 称 为 多 用 户 系 统 
( multiuser system) (如 Oracle 、MySQL 、Microsoft SQL Server 、PostgreSQL 、IBM DB2 及 
Teradata ) 。 

数据 库 管 理 组 件 ( database administration component) 用 于 完成 数据 库 系 统 的 技术 性 、 
管理 性 或 维护 性 任务 ， 如 确保 系统 安全 、 性 能 优化 或 实现 系统 的 备份 与 恢复 。DCL (数据 控 
制 语 言 ) 和 TCL (事务 控制 语言 ) 类 型 的 SQL 命令 将 主要 用 于 数据 库 管 理 以 及 其 他 相关 的 技 
术 过 程 ， 本 章 将 对 此 进行 简要 说 明 。 
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应 用 开发 组 件 (application development component) 用 于 前 端 应 用 的 开发 。 在 一 
些 DBMS 包 中 ,该 组 件 是 DBMS 的 一 部 分 ; 而 在 男 一 些 包 中 ， 则 是 作为 DBMS 的 添加 
组 件 。 


10.3 数据库 管理 概述 

数据 库 管 理 涵 盖 了 确保 一 个 已 经 部 署 的 数据 库 系 统 正 确 运行 的 各 种 行为 。 为 了 实现 数据 
库 系统 的 监测 与 维护 ， 数 据 管理 行为 包含 数据 安全 性 任务 (如 数据 存 取 控 制 )、 数 据 备份 与 
恢复 、 数 据 完整 性 保证 等 过 程 。 数 据 库 管理 还 包含 与 系统 性 能 、 标 准 管理 、 数 据 创 建 与 使 用 
政策 相关 的 各 种 行为 。 

本 章 的 后 续 部 分 将 对 以 下 数据 管理 基本 任务 做 出 简要 说 明 : 

e 数据 库 系统 监测 与 维护 。 

e。 防范 非法 存 取 的 数据 库 安全 性 保护 。 

e。 数据 库 备 份 与 恢复 。 

e 数据 完整 性 保护 。 

e。 数据 库 性 能 优化 。 

® 数据 库 政策 与 标准 的 开发 与 实现 。 


10.4 ”数据 库 系统 监测 与 维护 


数据 库 系 统 发 行 后 ， 控 制 系 统 的 人 员 便 由 负责 数据 库 设计 、 实 现 及 部 署 的 团队 转变 为 了 
数据 库 管理 员 ( database administrator，DBA)。DBA 的 工作 之 一 是 监测 数据 库 系 统 的 使 用 
和 运行 。 

第 规 监 测 可 以 帮助 DBA 识别 系统 需要 维护 的 各 种 情形 。 例 如 ， 监 测 结果 可 能 让 DBA 
注意 到 ， 以 终端 用 户 当 前 的 数据 输入 速度 ， 数 据 库 系统 将 会 在 数 周 内 耗 尽 硬盘 空间 。 基 于 这 
一 观测 ，DBA 则 将 做 出 增加 数据 库 系 统 硬盘 空间 的 决定 。 

男 一 个 监测 的 实例 是 检查 系统 中 谁 正在 使 用 什么 表 ， 以 及 如 何 使 用 。 例 如 ，DBA 可 能 
会 注意 到 有 两 个 表 被 大 部 分 用 户 非 常 频 繁 地 加 入 到 一 个 查询 中 ， 并 重复 地 创建 相同 的 报告 。 
基于 这 一 观测 ，DBA 则 可 建议 数据 库 开发 团队 反 规范 化 地 将 这 两 个 表 合 并 为 一 个 表 。 这 一 
问题 的 另 一 个 处 理 办 法 是 ， 创 建 一 个 物化 视图 来 连接 这 两 个 表 ， 使 用 户 可 以 直接 对 视图 进行 
查询 。 第 5 章 曾 讲 过 ， 普 通 的 视图 并 非 实际 的 数据 表 ， 且 不 对 应 物理 存储 数据 。 当 用 户 存 取 
一 个 视图 时 ， 用 于 创建 视图 的 查询 将 被 执行 ， 而 数据 将 从 该 查询 所 使 用 的 物理 表 中 得 到 。 而 
视图 物化 ( view materialization) 则 是 指 将 视图 创建 为 一 个 实际 的 物理 表 ， 这 样 的 视图 称 为 
“物化 视图 ”。 视 图 物化 的 目的 是 提升 被 频繁 使 用 的 视图 的 查询 性 能 。 例 如 ，DBA 可 以 建立 
一 个 自动 化 的 视图 物化 ， 通 过 创建 某 种 机 制 为 每 一 个 被 查询 了 特定 次 数 的 视图 再 保存 一 个 视 
图 (作为 有 实际 数据 记录 的 真实 表格 )。 物 化 视图 可 基于 DBMS 以 及 原始 数据 表 的 变化 率 进 
行 周 期 性 的 更 新 。 

维护 行为 包括 对 数据 库 软 硬件 资源 的 管理 与 升级 。 例 如 ，DBA 会 负责 将 数据 库 系统 升 
级 到 一 个 新 版 的 DBMS 软件 系统 上 ， 或 是 将 数据 库 移动 到 一 个 新 的 硬件 平台 上 。 

维护 行为 也 包括 对 数据 库 结构 的 升级 。 正 如 前 面 所 提 及 的 (图 1-6 及 图 7-9 )， 数 据 库 需 
要 随 着 其 开发 生命 期 内 的 任何 一 步 改 变 而 改变 ， 包括 在 使 用 阶段 中 的 改变 。 换 言 之 ， 在 数据 
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库 系统 的 整个 生命 期 内 ， 可 能 会 存在 数据 库 模 式 改变 的 需要 。 例 如 ， 在 数据 库 的 使 用 阶段 ， 
一 个 新 的 关系 可 能 需要 加 入 到 数据 库 中 ”， 而 是 否 添加 该 关系 将 取决 于 数据 库 的 开发 者 。 如 
果 打 算 添 加 ， 则 负责 数据 库 系统 的 DBA 将 会 直接 参与 到 将 这 一 新 的 数据 表 与 现存 数据 库 合 
并 的 工作 之 中 。 


数据 字典 

在 数据 库 系 统 的 监测 与 维护 过 程 中 ， 或 是 在 系统 的 常规 使 用 过 程 中 ， 无 论 是 对 于 存储 在 
数据 库 中 的 数据 还 是 元 数据 ， 均 需要 进行 存 取 操 作 。 其 中 ， 对 于 元 数据 的 存 取 采 用 数据 字典 - 
来 实现 。 

数据 字典 ( data dictionary) 即 数据 库 中 元 数据 (关于 数据 的 数据 ) 的 存储 库 。 数 据 字 暴 
有 时 也 称 为 元 数据 存储 库 ， 包 括 表 名 、 表 中 的 列 名 、 列 的 数据 类 型 、 关 键 字 及 参照 完整 性 
约束 等 信息 。 用 于 显示 所 运行 数据 库 系统 结构 的 元 数据 被 DBMS 自动 地 存储 在 数据 字典 中 ， 
此 数据 字典 通常 称 为 目录 (catalog)。 

图 10-2 的 实例 展示 了 存储 在 数据 字典 中 的 信息 类 型 。 


TableName DataType | DataLength 


Vengoria 


图 10-2 数据 字典 中 的 一 个 实例 


数据 字典 表 可 实现 数据 库 关 系 中 元 数据 的 快速 识别 。 图 10-2 给 出 的 数据 字典 实例 中 ， 
关系 Vendor 具有 一 个 VendorID 列 ， 其 数据 类 型 为 Char(2)， 还 具有 一 个 VendorName 列 ， 
其 数据 类 型 为 Varchar(25)。 

用 户 可 使 用 SQL 语句 查询 数据 字典 表 。 数 据 字 典 表 中 ，USER_TABLES 用 于 提供 用 
户 可 存 取 的 所 有 表 信 息 ，USER_VIEWS 用 于 提供 用 户 可 存 取 的 所 有 视图 信息 ，USER_ 
CONSTRAINTS 给 出 了 用 户 存 取 的 相关 约束 。 尽 管 不 同 的 DBMS 对 这 些 表 的 命名 可 能 有 所 
不 同 ， 但 它们 所 提供 的 信息 都 是 相似 的 ， 都 具有 相似 的 服务 目标 。 

例如 ,假设 使 用 Oracle 创建 ZAGI 零 售 公 司 销售 部 的 数据 库 ( 见 图 3-32 或 图 5-1a)， 则 
以 下 SQL 查询 结果 将 显示 所 有 关系 中 所 有 列 的 列 名 及 数据 类 型 . 


SELECT table name, column name, data type, data length 
FROM user tab columns:; 


在 Oracle 中 ，USER_TAB COLUMNS 包含 了 关系 中 列 的 元 数据 。 上 述 查 询 结 果 显 示 在 
图 10-3 中 。 

对 数据 字典 表 的 查询 允许 DBA 及 用 户 快速 地 获取 数据 库 结 构 。 普 通用 户 对 数据 字典 表 
的 查询 ， 其 查询 结果 将 仅 包含 该 用 户 有 权 访 问 的 表 信 息 〈 访 问 控制 将 在 后 续 部 分 讨论 )。 


昌 复习 一 下 ， 正确 行为 过 程 是 : 在 实际 创建 新 的 数据 表 前 ， 回 退 到 需求 阶段 并 完成 图 1-6 (用 于 操作 数据 库 ) 或 


是 图 7-9 (用 于 数据 仓库 或 数据 集 市 ) 中 显示 的 所 有 步骤 。 
号 比较 含 混 的 是 ， 术 语 “ 存 储 库 ”在 实际 中 往往 用 于 表示 “元 数据 存储 库 ”， 但 在 某 些 时 候 也 被 简单 地 用 于 表 
示 数 据 的 存储 。 在 此 ， 我 们 采用 “元 数据 存储 库 ” 的 意思 ， 以 消除 混淆 。 
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图 10-3 ZAGI 零售 公司 销售 部 数据 库 的 数据 字 和 典 实 例 


10.5 数据 库 安全 : 防范 非法 存 取 


防范 数据 的 非法 存 取 是 数据 库 管 理 中 的 首要 任务 ， 这 一 任务 震 划 对 数据 的 存 取 过 程 加 以 
控制 。 在 多 用 户 数据 库 系 统 中 ， 数 据 库存 取 的 第 一 步 是 认证 (authentication)， 它 是 利用 用 户 
账户 标识 符 及 密码 进行 登录 来 实现 的 。 基 于 用 户 标 识 符 ， 存 取 控 制 策略 便 可 决定 一 个 用 户 被 
授权 存 取 的 组 件 。 受 工作 职责 及 职位 的 影响 ， 不 同 的 用 户 将 可 能 被 允许 操作 同一 数据 库 的 不 
同 部 分 。 在 现代 数据 库 系 统 中 ,这 主要 是 通过 对 用 户 数据 库存 取 权 限 ( access privilege) 的 
授权 与 权限 回收 来 实现 。 一 个 存 取 权限 可 以 分 配给 用 户 账 户 并 包含 诸如 创建 表 与 视图 等 行 
为 。 存 取 权 限 可 以 被 指定 到 一 个 特定 的 关系 或 视图 。 存 储 权 限 包括 以 下 行为 : 


SELECT 完成 选择 ( 读 ) 操作 

UPDATE 更 新 记录 

ALTER 修改 数据 表 (如 增加 列 、 删 除 列 等 ) 
DELETE 删除 记录 

INSERT 插入 记录 


这 些 权 限 的 实施 主要 是 通过 维护 一 个 由 主客 体 构成 的 授权 矩阵 ( authorization matrix ) 
来 完成 的 。 该 矩阵 常 由 DBMS 提供 ， 并 可 由 DBA 进行 操纵 。 和 矩阵 的 主体 为 数据 库 的 用 
户 ， 而 基本 的 客体 则 可 以 为 关系 、 视 图 或 属性 。 和 矩阵 中 的 实体 显示 了 一 个 用 户 对 于 特定 客 
体 所 分 配 到 的 特定 权限 。 例 如 ， 给 定 一 个 授权 和 矩阵 如 图 10-4 所 示 ， 用 户 Bob 可 以 读 取 ( 即 


完成 SELECT 操作 ) 关系 VENDOR， 并 可 读 取 与 更 新 关系 CATEGORY ; 用 户 Alice 可 


以 法 取 关系 CATEGORY 但 不 能 存 到 关 [Usa] Ron VENDOR [Roaron ATEGORY | 
和 VENDOR ;而 用 户 Lee 则 可 对 关系 [Bop | seor | smsor rows | .| 


表 的 创建 者 将 被 当 作 该 表 的 所 有 者 并 
对 该 表 具 有 所 有 权限 。 数 据 库 管理 者 及 表 
的 所 有 者 均 可 以 为 其 他 用 户 使 用 该 表 进 行 
授权 或 收回 权限 ， 该 过 程 将 利用 DCL ( 数 
据 控制 语言 ) 的 SQL 语句 GRANT 及 REVOKE 来 实现 。 例 如 ，SQL 语句 







图 10-4 ”一 个 授权 和 矩阵 的 例子 


GRANT SELECT, UPDATE ON vendor TO alice; 


表示 授予 用 户 Alice 对 关系 VENDOR 具有 SELECT 及 UPDATE 操作 权限 。 类 似 地 ， 以 下 语 
名 将 收回 Alice 的 权限 。 

REVOKE UPDATE ON vendor FROM alice,; 
该 语句 执行 后 ，Alice 将 不 能 再 对 关系 表 VENDOR 进行 更 新 ,， 但 她 仍然 可 对 该 表 进 行 
SELECT 操作 。 

这 种 存 取 控制 方式 将 为 每 个 用 户 分 配 一 个 特有 的 权限 集 以 实现 对 特定 客体 的 存 取 ， 便 于 
在 小 型 的 多 用 户 环境 下 实施 及 使 用 ,但 该 方式 无 法 随 用 户 数 与 客体 数 的 增加 而 很 好 地 进行 扩 
展 。 在 很 多 情况 下 ， 为 一 个 存在 大 量 用 户 的 数据 库 维护 一 个 关于 个 体 用 户 的 特权 和 矩阵 将 是 不 
可 行 的 。 在 这 样 的 情况 下 ， 我 们 将 不 再 对 个 体 用 户 的 特权 加 以 识别 ， 而 是 使 用 基于 角色 的 访 
问 控制 (role-based access control) 系统 。 在 该 系统 中 ， 用 户 被 指定 为 角色 ， 而 角色 具有 预先 
定义 的 权限 。 由 DBA 对 角色 做 出 定义 并 为 角色 分 配 权 限 ， 之 后 ，DBA 再 为 用 户 进行 角色 分 
配 。SQL 中 的 GRANT 及 REVOKE 语句 可 用 于 实现 基于 角色 的 访问 控制 。 例 如 以 下 SQL 语 
名 序列 : 

CREATE ROLE accountant,; 


GRANT SELECT ON payroll TO accountant ; 
GRANT accountant TO brian: 


角色 Accountant 被 创建 ， 并 对 表 PAYROLL 具有 SELECT 操作 权限 。 用 户 Brian 被 分 
配 到 Accountant 角色 ， 并 因此 对 表 PAYROLL 具有 SELECT 操作 权限 。 

在 基于 角色 的 访问 控制 系统 里 ， 分 配给 角色 的 权限 总 是 固定 的 ， 而 角色 中 的 用 户 成 员 关 
系 则 是 可 变 的 。 当 用 户 在 组 织 中 的 角色 发 生变 化 时 ， 则 可 将 其 成 员 关 系 从 一 个 角色 变 为 另 一 
个 角色 。 基 于 用 户 的 职责 ,一 个 用 户 可 以 被 分 配 到 多 个 角色 。 被 分 配 多 个 角色 的 用 户 将 拥有 
每 个 角色 所 具有 的 所 有 权限 。 

当 处 理 的 数据 特别 敏感 时 ， 我 们 可 对 数据 进行 加 密 (encryption) 处 理 ， 从 而 为 防范 数据 
的 非法 存 取 提 供 多 一 层 的 保护 。 数 据 加 密 即 使 用 基于 加 密 密 钥 ( encryption key) 的 置 乱 算法 
来 实现 信息 转换 ， 从 而 使 信息 变 得 不 可 读 取 ， 而 只 有 那些 拥有 解密 密 钥 ( decryption key) 及 
解密 算法 的 用 户 ， 才 可 将 信息 转换 至 原始 状态 并 进行 读 取 。 对 于 特别 机 密 的 数据 可 以 进行 数 
据 加 密 处 理 ， 且 系统 中 只 有 具有 访问 授权 的 用 户 群 体 才 能 获得 解密 密 钥 。 


10.6 ”数据 库 备 份 与 恢复 
备份 (backup ) 与 恢复 (recovery) 机 制 用 于 确保 数据 不 会 丢失 。 在 计算 机 发 展 的 早期 年 
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代 ， 很 多 公司 均 发 生 过 因 计算 机 失效 而 使 全 部 顾客 信息 丢失 的 事故 。 在 当今 的 商业 数据 库 系 
统 中 ， 备 份 与 恢复 机 制 可 确保 数据 库 处 于 一 种 无 数据 丢失 的 连贯 状态 。 

数据 库 中 的 数据 存储 在 硬盘 驱动 器 里 。 当 用 户 发 起 对 数据 库 中 数据 的 读 取 或 更 新 请 求 
时 ,数据 必 将 从 磁盘 进入 内 存 。 任 何 数据 更 新 ( 即 插入 、 删 除 、 修 改 ) 都 将 首先 写 入 内 存 的 
数据 副本 中 ， 再 最 终 写 人 磁盘 . 将 数据 更 新 写 人 磁盘 的 数据 文件 将 带 来 不 小 的 额外 系统 开 
销 ， 因 此 数据 更 新 往往 会 分 批号 人 磁盘 。 即 我 们 并 不 会 在 每 次 数据 更 新 后 便 将 更 新 写 人 磁盘 
的 数据 文件 ， 而 是 将 更 新 首先 记录 在 一 个 恢复 日 志 (recovery log) 里 。 恢 复 日 志 可 确保 内 存 
中 已 完成 的 数据 更 新 在 分 批 写 人 磁盘 前 ， 即 便 因 某 种 原因 而 造成 丢失 ， 人 恢复 日 志 中 仍然 保存 
有 该 次 更 新 的 相关 信息 。 恢 复 日 志 的 实体 中 包含 以 下 信息 : 哪个 数据 值 被 更 新 ， 更 新 前 与 更 
新 后 的 值 ， 请 求 数据 更 新 的 用 户 。 由 于 更 新 前 后 的 值 均 被 记录 ， 恢 复 日 志 将 允许 DBMS 重 
做 或 是 撤销 更 新 操作 。 当 恢复 日 志 中 记录 下 多 个 更 新 操作 以 后 ， 日 志 中 的 更 新 将 被 写 和 人 数据 
文件 的 数据 中 。 

利用 恢复 日 志 及 检查 点 ( checkpoint) 可 实现 数据 库 的 周期 性 副本 备份 。 检 查 点 属于 恢 
复 日 志 的 一 部 分 。 创 建 检查 点 时 ,恢复 日 志 中 的 所 有 更 新 操作 及 内 存 中 各 数据 更 新 的 结果 值 
均 将 写 人 数据 库 的 磁盘 数据 文件 中 。 检 查 点 创建 完成 后 ,恢复 日 志 便 会 清空 ， 从 而 可 用 于 
DBMS 对 数据 库 后 续 更 新 的 记录 。 检 查 点 的 创建 符合 一 定 规 则 ， 可 在 指定 的 时 间 段 后 进行 创 
建 或 在 指定 数据 量 被 写 人 恢复 日 志 后 进行 创建 。 

当 失 效 事件 发 生 后 ，DBMS 可 通过 以 下 方式 进行 系统 恢复 :“ 回 滚 ” 至 检查 点 状态 ， 对 
恢复 日 志 中 记录 的 检查 点 后 系统 所 生成 的 全 部 更 新 进行 重 做 。 换 言 之 ， 即 是 将 磁盘 数据 文件 
中 的 数据 库 作 为 起 始点 ， 并 将 恢复 日 志 中 记录 的 所 有 更 新 作用 于 数据 库 中 的 数据 。 

SQL 的 TCL 命令 ， 如 COMMIT 和 ROLLBACK， 均 可 用 于 这 一 过 程 。COMMIT 命令 会 
将 数据 库 的 所 有 更 新 记录 到 磁盘 上 。 在 检查 点 创建 期 间 ， 该 命令 会 自动 执行 。 同 时 ， 该 命令 
也 可 由 用 户 或 DBA 来 调用 执行 。ROLLBACK 命令 则 用 于 回 滚 最 近 的 COMMIT 命令 后 的 所 
有 更 新 。 

以 上 过 程 是 典型 的 数据 库 系 统 日 常 运行 中 的 基本 工作 ， 它 们 提供 了 对 数据 更 新 失效 的 恢 
复 ， 更 新 失效 可 能 由 断 电 、 硬 件 故 障 、 事 务 中 止 、 软 件 故障 及 其 他 类 似 因 素 所 导致 。 

除了 恢复 通常 情况 下 数据 更 新 失效 的 上 述 机 制 外 ， 现 代数 据 库 系统 还 提供 了 数据 库 系统 
彻底 毁坏 情况 下 的 应 对 策略 。 例 如 ， 由 于 自然 灾害 所 导致 的 数据 库 系 统 毁 坏 。 为 此 ,我们 
通常 采用 在 多 个 物理 站 点 上 分 别 保留 一 个 完全 镜像 备份 ( complete mirrored backup) 副本 的 
方法 。 这 些 备 份 副本 将 持续 地 进行 更 新 以 保持 与 源 数据 库 的 完全 一 致 。 当 源 数据 库 遭 到 毁坏 
时 ， 则 可 用 备份 副本 对 源 数据 库 进 行 重 置 。 


10.7 数据 完整 性 保护 


数据 完整 性 保护 用 于 防范 将 导致 数据 库 中 产生 无 效 数据 、 损 坏 数 据 、 低 质量 数据 的 各 种 
韭 授 权 或 意外 的 数据 插入 、 修 改 或 删除 操作 。 保 护 数据 库 的 完整 性 可 结合 与 数据 安全 和 数据 
使 用 相关 的 多 种 方法 和 途径 来 实现 。 

在 数据 库 中 ， 一 种 危及 数据 完整 性 的 方式 是 非 授 权 的 恶意 数据 更 新 (unauthorized 
malicious data update)。 例 如 ， 一 个 不 道德 的 竞争 对 手 可 能 企图 错误 地 提升 数据 库 中 由 某 个 
零售 商 在 线 使 用 的 产品 价格 。 本 章 前 面 所 给 出 的 访问 控制 方法 便 可 用 于 防范 此 类 非 授 权 更 
新 ， 并 确保 数据 的 完整 性 。 
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另 一 种 可 能 威胁 数据 完整 性 的 方式 是 更 新 失效 (update failure)。 例 如 ， 一 个 银行 数据 库 
服务 器 可 能 在 以 下 时 刻 突然 般 演 : 一 个 ATM 在 从 账户 A 向 账户 B 的 转账 过 程 中 ， 钱 已 从 账 
户 A 拨 出 且 没 有 到 达 账 户 B。 和 若 没 有 采用 备份 与 恢复 机 制 ， 则 客户 端 用 户 将 会 在 本 次 转 
账 中 丢掉 这 笔 款 项 。 而 前 文中 基于 恢复 日 志 的 备份 与 恢复 机 制 可 确保 数据 (本 例 中 的 转 款 ) 
不 会 丢失 ， 因 为 事务 可 回 深 至 账户 A 还 没 进行 扣 款 的 状态 。 

数据 完整 性 威胁 也 可 能 由 数据 库 的 意外 误 操 作 (accidental misuse) 所 导致 例如， 数据 
录 人 人 员 可 能 因 其 错误 的 数据 输入 导致 产品 由 一 个 并 不 存在 的 销售 商 来 提供 。 此 时 ， 数 据 库 
服务 器 可 利用 约束 和 条件， 如 第 6 章 讲 到 的 参照 完整 性 约束 及 用 户 自 定 义 完整 性 约束 ， 对 此 时 
的 数据 完整 性 做 出 保护 。 在 本 例 中 ， 参 照 完 整 性 约束 将 不 允许 把 产品 分 派 给 一 个 并 不 存在 的 
销售 商 。 对 于 其 他 由 终端 用 户 的 误 操 作 导 致 的 数据 完整 性 问题 ， 可 利用 第 6 章 中 基于 防范 与 
校正 的 数据 质量 保证 行为 来 进行 处 理 。 


10.8 数据 库 性 能 优化 


数据 管理 工作 的 男 一 个 任务 是 数据 库 的 性 能 优化 。 性 能 优化 力图 最 小 化 从 数据 库 中 检索 
数据 的 查询 啊 应 时 间 。 与 性 能 优化 相关 的 数据 库 管理 工作 包括 : 索引 (第 6 章 中 讨论 )、 逆 
规范 化 (第 4 章 中 讨论 )、 视 图 物化 (本 章 前 面部 分 讨论 ) 以 及 查询 优化 。 

查询 优化 ( query optimization) 工作 包括 对 同一 查询 任务 的 多 种 执行 方案 的 审查 ， 以 及 
对 最 快速 查询 方案 的 选取 。DBMS 的 查询 优化 器 ( query optimizer) 功能 可 决定 如 何 有 效 地 
执行 SQL 语句 。 当 用 户 向 数据 库 提交 一 个 SQL 查询 时 ， 便 指定 了 用 户 希 望 从 数据 库 中 检索 
的 内 容 ， 但 它 并 没 指定 如 何 从 数据 库 中 进行 检索 。 事 实 上， 这 正 是 查询 优化 器 的 作用 ， 即 鉴 
别 执行 该 查询 的 多 种 可 能 途径 〈 称 为 查询 计划 )， 并 选择 最 好 的 查询 计划 。 

在 查询 优化 问题 中 ， 术 语 查询 代价 (query cost) 指 的 是 执行 时 间 长 度 。 查 询 代 价 将 受到 
各 种 因素 的 影响 ， 如 操作 执行 的 顺序 、 索 引 的 使 用 。 操 作 执 行 的 顺序 可 能 会 影响 到 查询 效 
率 。 例 如 ， 假 设 一 个 查询 需要 在 两 个 表 上 完成 JOIN 及 SELECT 操作 ， 则 首先 执行 SELECT 
操作 通常 会 更 加 高 效 。 假 设 JOIN 操作 对 应 于 记录 了 所 有 年 龄 层次 的 学 生 表 ， 且 仅 需 对 年 
龄 为 18 岁 的 学 生 进 行 操 作 ， 那么 ， 相 比 于 在 原 学 生 表 中 先 执 行 JOIN 再 执行 18 岁 学 生 的 
SELECT 操作 ， 首 先 用 SELECT 将 18 岁 的 学 生 选 取出 来 再 执行 JOIN 操作 必 将 更 加 高 效 。 

为 了 正确 地 进行 决策 ， 查 询 优 化 器 中 将 保存 各 种 相关 的 信息 块 ， 例 如 ， 一 个 表 中 的 记录 
个 数 、 记 录 扩 十 、 一 个 列 中 可 区 分 值 的 个 数 、 列 的 最 大 与 最 小 值 。 查 询 优 化 器 也 将 为 每 个 索 
引 维护 相似 的 信息 。 查 询 创 建 者 虽 不 能 告知 优化 器 如 何 处 理 查 询 ， 但 可 以 给 出 所 谓 的 查询 提 
示 ( query hint)。 查 询 提 示 可 以 覆盖 查询 优化 器 的 默认 行为 。 通 常 而 言 ， 查 询 优 化 器 无 需 查 
询 提 示 便 可 得 到 最 优 查询 方案 。 而 查询 提示 往往 仅 用 于 有 经 验 的 数据 库 管 理 者 的 微调 过 程 。 


10.9 数据 库 政 策 与 标准 的 开发 与 实施 


本 草 最 后 讨论 的 数据 库 管 理 任 务 是 数据 库 政策 与 标准 ( database policy and standard) 的 
开发 与 实现 。 一 个 合理 的 商业 数据 库 系 统 对 于 数据 库 的 开发 、 使 用 及 管理 都 有 特定 的 政策 与 
标准 。 

例如 ， 数 据 库 系统 应 该 有 一 个 命名 约定 来 命名 数据 库 的 结构 ， 如 第 2 章 所 述 。 这 些 约 定 
可 包含 各 种 规则 ， 如 数据 库 表 的 每 个 列 名 必须 有 一 个 前 组 ， 且 为 数据 库 表 名 的 前 3 个 字符 。 
这 一 规则 应 该 在 数据 库 设 计 的 初始 阶段 进行 强调 ， 并 贯穿 于 数据 库 生命 期 内 所 有 数据 库 结构 
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的 修改 之 中 。DBA 将 依据 这 一 规则 对 数据 库 表 中 每 个 新 的 列 名 做 出 检查 ， 验 证 其 是 否 使 用 
数据 表 名 的 前 3 个 字符 作为 列 名 前 组 。 

除了 关于 数据 库 开 发 的 政策 与 标准 ， 数 据 库 系统 也 提供 了 关于 数据 库 使 用 的 政策 与 标 
准 。 例 如 ， 一 个 数据 库 系 统 可 以 给 出 以 下 政策 : 只 有 那些 可 以 进入 数据 库 的 供应 商 才 是 美国 
协会 的 注册 供应 商 。 这 一 政策 可 以 作为 一 个 商业 规则 加 以 实施 ， 它 能 实现 供应 商 关 系 中 的 每 
个 新 记录 与 查找 表 (查找 表 中 存放 的 是 美国 协会 的 所 有 注册 供应 商 ) 的 对 应 ， 并 可 防止 在 查 
找 表 中 不 存在 其 匹配 信息 的 任 一 个 体 进 入 系统 。 

数据 库 系 统 也 可 以 将 一 些 政策 与 标准 用 于 引导 数据 库 的 操控 与 行政 管理 。 例 如 ， 管 理 政 
策 可 要 求 数据 库 管理 表 的 开发 包含 特定 的 管理 任务 ， 如 访问 控制 、 数 据 库 性 能 优化 、 在 任务 
中 扮演 特定 角色 的 所 有 数据 管理 人 员 的 名 字 等 。 管理 政策 还 可 以 进一步 要 求 每 个 任务 需 指定 
一 个 主要 负责 人 ， 并 对 该 任务 负 有 最 终 责任 。 

数据 库 的 政策 与 标准 敌 盖 的 内 容 从 各 种 数据 库 客体 的 实现 到 基于 规则 的 基础 而 对 数据 库 
中 数据 实施 规则 化 的 行为 和 过 程 。 尽管 这 些 政策 与 标准 具有 各 自 的 作用 范围 ， 但 它们 具有 一 


个 通用 的 目的 ， 即 反映 并 支持 数据 库 的 业务 流程 与 业务 邮 辑 。 
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Q10.14 
Q10.15 


邸 三 部 分 潢 他 主 古 


DBMS 数据 管理 组 件 的 作用 是 什么 ? 
DBMS 应 用 开发 组 件 的 作用 是 什么 ? 
数据 库 管 理 包 括 哪 些 行为 ? 

请 给 出 几 个 数据 库 系统 维护 行为 的 例子 。 
什么 是 物化 视图 ? 

什么 是 数据 字典 ? 

列举 访问 权限 的 分 配 行为 。 

请 简要 描述 基于 角色 的 访问 控制 系统 。 
备份 与 恢复 机 制 的 作用 是 什么 ? 

给 出 几 个 有 损 数据 库 完整 性 的 例子 ， 
数据 库 性 能 优化 的 目标 是 什么 ? 

给 出 几 个 数据 库 政策 与 标准 的 例子 。 
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| 附录 A 


| Database Systems: Introduction to Databases and Data Warehouses 


扩展 的 ER 


术语 扩展 的 ER ( EER) 模型 涉及 扩展 的 ER 标记 法 ， 用 于 描述 标准 ER 模型 以 外 的 其 他 
数据 库 模型 概念 。 添 加 到 ER 模型 中 并 起 着 最 重要 作用 的 EER 是 概念 超 类 实体 ( superclass 
entity ) 与 子 类 实体 ( subclass entity)。 本 附录 中 ， 将 使 用 几 个 实例 对 添加 到 ER 模型 的 EER 
进行 说 明 。 


A.1 超 类 实体 与 子 类 实体 


超 类 实体 与 子 类 实体 的 概念 在 以 下 情况 下 使 用 : 除了 被 实体 的 所 有 实例 进行 分 享 的 属性 
集 外 ， 实 体 实 例 的 某 些 特定 群 组 还 具有 附加 属性 ， 且 这 些 属 性 仅 应 用 于 这 些 特 定 群 组 。 接 下 
来 的 3 个 实例 将 对 超 类 与 子 类 实体 的 概念 做 出 说 明 。 


A.1.1 EER 实例 1- 非 连接 子 类 ， 完 全 特殊 化 


考虑 以 下 实例 . 
e 对 于 每 一 个 储存 ， 公 司 X 将 保持 对 储存 编号 (唯一 ) 及 邮政 编码 的 追踪 。 
e@ 公司 义 中 ， 有 些 储 存 是 属于 公司 所 有 的 。 对 于 这 些 储 存 ， 公 司 义 将 保持 对 其 真实 身 
份 值 的 追踪 。 
e 公司 X 中 ， 有 些 储存 是 外 部 租用 的 。 对 于 这 些 人 和 储存， 公司 X 将 保持 对 其 年 度 租赁 葛 
用 的 追踪 。 
图 A-1 展 示 了 如 何 使 用 EER 标记 
法 来 对 这 一 情形 进行 建 模 。 在 该 图 中 ， 
实体 STORE 代表 一 个 超 类 ， 而 实体 
COMPANYSTORE 及 RENTEDSTORE 
代表 STORE 超 类 的 子 类 。 所 有 子 类 实 
例 均 会 继承 其 超 类 的 属性 。 本 例 中 ， 所 
有 的 公司 储存 以 及 租赁 储存 均 会 有 一 个 
StoreID 及 ZipCode 值 。 此 外 ， 所 有 的 
公司 储存 还 将 包含 一 个 RealEstateValue 
值 ， 而 所 有 的 租赁 储存 则 将 包含 一 个 
AnnualRent 值 RealEstateValue 
在 本 标记 法 中 ， 超 类 与 子 类 间 使 图 A-1 公司 X 中 超 类 与 子 类 的 例子 
用 一 个 圆圈 进行 标记 ， 子 类 与 超 类 的 连 


StoreiD 


COMPANYSTORE 





昌 正如 我 们 在 第 2 章 所 提 到 的 ， 并 不 存在 着 某 个 普遍 采用 的 标准 ER 标记 法 。 同 样 ， 也 不 存在 通用 的 EER 标记 
法 。 基 于 所 使 用 的 EER 标记 法 ， 子 类 与 超 类 可 采用 不 同 的 方式 来 表示 ,但 却 具 有 相同 的 意义 。 
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线 将 通过 圆圈 进行 连接 。 超 类 与 子 类 间 的 关系 称 为 IS-A 关系 (在 本 例 中 对 应 为 一 个 公司 储 
存 IS-A 储存 ， 以 及 一 个 租赁 储存 IS-A 储存 )。 可 利用 加 在 子 类 连接 线 上 的 半 椭 圆 形 来 识别 ”B11 
子 类 。 圆 圈 中 的 字母 表明 子 类 间 是 非 连 接 (字母 d) 还 是 重合 (字母 o)。 在 本 例 中 ， 于 类 
COMPANYSTORE 和 RENTEDSTORE 是 非 连接 子 类 ( disjointed subclasses)， 这 意味 着 子 类 
COMPANYSTORE 的 实例 不 可 能 同时 是 子 类 RENTEDSTORE 的 实例 。 反 之 亦 然 。 

用 于 连接 超 类 STORE 与 圆圈 的 双 线 代表 完全 特殊 化 (total specialization )。 在 完全 特殊 
化 情形 下 ， 超 类 的 每 个 实例 必然 也 是 子 类 的 实例 。 本 例 中 ， 完 全 特殊 化 意味 着 不 可 能 存在 既 
不 是 公司 储存 又 不 是 租赁 储存 的 储存 。 

在 EER 图 中 ， 超 类 及 子 类 都 可 关联 在 一 般 实 体 的 一 般 关 系 中 。 这 一 问题 在 图 A-2 
所 示 的 扩展 例子 中 进行 了 说 明 。 该 图 中 ， 子 类 RENTEDSTORE 被 关联 在 与 一 般 实 体 
REALTYCO 间 的 一 个 二 元 的 1 : M 关系 中 。 


StorelD ZipCode 
Cr NA 


RealtyCoID 


COMPANYSTORE RENTEDSTORE 上 OwnedBy REALTYCO 
Ce 
RealtyCoName 


图 A-2 公司 X 的 EER 图 例 


当 EER 图 被 映射 为 关系 模式 时 ， 在 超 类 与 子 类 间 的 IS-A 关系 将 被 映射 为 超 类 与 子 类 间 
一 系列 的 1 : 1 关系 。 网 A-3 显示 了 图 A-2 的 EER 图 映射 得 到 的 关系 模式 。 注意， 在 关系 
COMPANYSTORE 及 RENTEDSTORE 中 ， 列 StoreID 既是 主 码 也 是 外 码 . 
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图 A-3 公司 XX 的 EER 图 映射 为 关系 模式 
图 A-4 给 出 了 公司 X 中 由 图 A-2 中 EER 图 所 创建 的 数据 库 的 数据 样本 。 
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图 A-4 公司 X 的 样本 数据 
注意 ， 因 为 是 完全 特殊 化 ， 所 以 每 个 储存 一 定 是 或 为 公司 储存 ， 或 为 租赁 储存 。 同 时 ， 
由 于 子 类 是 非 连接 的 ， 所 以 公司 储存 不 可 能 同时 是 租赁 储存 ， 且 租赁 储存 也 不 可 能 同时 是 公 
司 储存 。 
A.1.2 EER 实例 2- 重合 子 类 ， 完 全 特殊 化 
考虑 以 下 实例 ， 
e 对 于 每 一 本 图 书 ， 出 版 商 义 保持 对 其 图 书 编号 (唯一) 及 图 书 书 名 的 追踪 。 
e 对 于 出 版 商 X， 一 些 图 书 是 印刷 版 图 书 。 对 于 这 些 图 书 ， 出 版 商 X 将 保持 对 其 印刷 
册 数 (PBookCopies) 以 及 单 本 印刷 价格 (PBookPrice) 的 追踪 。 
e 对 于 出 版 商 X， 一 些 图 书 是 电子 图 书 。 对 于 这 些 图 书 ， 出 版 商 X 将 保持 对 其 价格 
(EBookPrice) 的 追踪 。 
@ 每 本 电子 图 书 可 在 多 个 平台 上 使 用 (每 个 平台 具有 平台 编号 (唯一 ) 和 平台 名 )。 每 
个 平台 拥有 大 量 的 可 用 电子 图 书 。 
313 图 A-5 展示 了 如 何 使 用 EER 标记 法 来 对 这 一 情形 进行 建 模 。 


BookID 


Cw) PlatformilD 


PRINTEDBOOK EBOOK pb d PLATFORM 
PBookCopies PBookPrice EBookPrice 


图 A-5 出 版 商 X 的 EER 图 例 
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圆圈 中 的 字母 o 表 明子 类 PRINTEDBOOK 与 EBOOK 是 重 价 子 类 (overlapping sub 
classes) 。 子 类 PRINTEDBOOK 的 实例 可 以 同时 是 子 类 EBOOK 的 实例 ， 反 之 亦 然 。 换 言 
之 , 一 本 图 书 可 以 既是 印刷 版 图 书 又 是 电子 图 书 。 

由 连接 超 类 BOOK 与 圆圈 的 双 线 代表 完全 特殊 化 ， 所 以 不 存在 既 不 是 印刷 版 图 书 也 不 
是 电子 图 书 的 图 书 。 


PRINTEDBOOK 






BookID (Fk) 
PBookGopies 
PpPBookPrice 









PLATFORM 


PlatformID 
PlatformName 


BOOK 


BookID 
BookTitle 

























AVAILABILITY 


PlatformID (Fk) 
BookID (Fr) 








EBOOK 
EBookPrice 
图 A-6 ”出 版 商 X 的 EER 图 映射 为 关系 模式 
图 A-6 给 出 了 图 A-5 的 EER 映射 得 到 的 关系 模式 。 
图 A-7 给 出 了 出 版 商 X 的 EER 图 创建 的 数据 库 的 数据 样本 。 [314| 
BOOK PRINTEDBOOK 


PBookCopies | PBookPrice 


B0000 ls 









BookID | BookTitle 
B1 Winter Game 












B4 Pam & Sue 
BS | Arrival 









EBookPrice 


B 

Ba lsio 
B | $55 
86 









PliatformiD | PlatformName 


EE TT 








BooklD | PlatformiD 





图 A-7 出 版 商 X 的 样本 数据 


注意 ， 由 于 是 完全 特殊 化 ， 所 以 不 存在 既 非 印刷 版 图 书 也 非 电 子 图 书 的 图 书 。 同 时 ， 由 
于 子 类 间 是 可 以 重奏 的 ， 所 以 一 些 图 书 可 以 既是 印刷 版 图 书 又 是 电子 图 书 。 
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A.1.3 ”EER 实例 3- 非 连 接 子 类 ， 部 分 特殊 化 

葵 虑 以 下 实例 : 

@ 对 于 每 一 个 雇员 ， 航 空 公 司 义 保 持 对 其 雇员 编号 (唯一) 及 殿 员 姓名 的 追踪 。 

e 在 航空 公司 X 中 ， 一些 雇员 是 飞行 员 。 对 于 这 些 雇 员 ， 航 空 公司 X 将 保持 对 其 飞行 
时 间 (NoFHours) 的 追踪 。 

。 在 航空 公司 X 中 ,一 些 雇员 是 技术 员 ， 对 于 这 些 雇 员 ， 航空 公司 X 将 保持 对 其 技术 
类 型 (MeType) 的 追踪 。 

@ 在 航空 公司 X 中 ， 一 些 展 员 是 空乘 服务 员 。 对 于 这 些 殿 员 ， 航 空 公司 X 将 保持 对 其 
空乘 服务 水 平 (FALevel) 的 追踪 。 

8 还 存在 一 些 雇员 ， 既 非 飞行 员 ， 也 非 技 术 员 、 空 乘 服务 员 。 对 于 这 些 展 员 ， 除 追踪 
其 雇员 编号 与 座 员 姓名 外 ， 航 空 公司 X 将 不 再 对 其 他 信息 进行 追踪 . 

图 A-8 展示 了 如 何 使 用 EER 标记 法 来 对 这 一 情形 进行 建 模 。 


Camp > EmpName 


EMPLOYEE 


MECHANIC FLIGHTATTENDANT 


图 A-8 航空 公司 X 的 EER 图 例 


部 分 特殊 化 ( partial specialization) 由 连接 超 类 EMPLOYEE 与 圆圈 的 单线 表示 。 在 本 
例 中 ， 部 分 特殊 化 表明 ， 有 些 雇员 既 非 飞行 员 、 技 术 员 ， 也 非 空乘 服务 员 。 

圆圈 中 的 字母 d 代表 子 类 PILOT、MECHANIC、FLIGHTATTENDANT 是 非 连接 子 类 。 

图 A-9 给 出 了 图 A-8 的 EER 映射 得 到 的 关系 模式 。 


PILOT 









EmpID (FK) 
NoFHours 









EMPLOYEE MECHANIC 


FLIGHTATTENDANT 


EmpiID (FK) 
FALavel 


图 A-9 ”航空 公司 X 的 EER 图 映射 为 关系 模式 
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可 A-10 给 出 了 航空 公司 X 的 EER 图 对 应 数据 库 的 数据 样本 。 
EMPLOYEE PILOT 


EmplD | EmpName EmplD 


EE] 17000 
E2 20000 


MECHANIC 


和 ua 





FLIGHTATTENDANT 


EmplD | FALevel 





加 A-10 航空 公司 X 的 样本 数据 


注意 、 由 于 是 部 分 特殊 化 ， 所 以 并 不 要 求 雇员 一 定 是 飞行 员 、 技 术 员 或 空乘 服务 员 之 
一 ,一 些 雇员 (如 Luc 和 Stu) 只 是 一 般 雇 员 。、 同 时， 因为 子 类 是 非 连接 的 ， 所 以 不 会 存在 
个 既是 飞行 员 又 是 技术 员 、 或 既是 飞行 员 又 是 空乘 服务 员 ， 或 轻 是 技术 员 又 是 空乘 服务 员 
的 雇员 . 
超 类 与 子 类 可 以 是 以 下 4 种 分 类 之 一 : 
e 非 连接 子 类 ， 完 全 特殊 化 。 
e 重 登 子 类 ， 完 全 特殊 化 。 1315] 
可 人 部 分 特殊 化 。 
。 重 价 子 类 ， 部 分 特殊 化 。 
其 中 的 前 3 Me 3 个 实例 (EER 实例 1 .EER 实例 2、EER 实例 3 ) 进行 了 说 明 。 
第 4 类 ( 重 又 子 类 ， 部 分 特殊 化 ) 将 留 作 练习 ， 请 给 出 相应 的 实例 说 明 。 316| 
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第 4 章 介绍 的 函数 依赖 及 规范 化 足以 让 我 们 很 好 地 理解 典型 公司 或 组 织 机 构 的 规范 化 过 
程 ， 而 本 附录 将 对 函数 依赖 以 及 规范 化 的 研究 做 出 延展 。 


B.1 候选 码 与 函数 依赖 


除 主 码 外 ， 关 系 还 可 以 有 一 个 或 多 个 额外 的 候选 码 。 请 看 图 B-1 中 给 出 的 例子 关系 ， 
CITY， 它 有 一 个 主 码 CityID ， 以 及 一 个 额外 的 候选 公 CityName、State。 


TY 
CityiD CityName | State| StatePopulation | CityPopulation 


C2 |GranaRapis|M | 9900000 |190.000 
C5 |Porang |OR | ag00000 |600000 
66 |Evgene |OR | 3900000 |360000 
C7 loranaRapias MN | 5400000 | 11.000 


图 B-1 具有 一 个 主 码 和 一 个 候选 码 的 关系 CITY 
图 B-2 中 给 出 了 关系 CITY 中 的 函数 依赖 。 


| 1 | 
EECZTZ 
| | | | 


图 B-2 关系 CITY 中 的 函数 依赖 


各 一 个 关系 除 主 码 外 还 有 额外 的 候选 码 ， 以 下 将 给 出 部 分 田 数 依赖 与 完全 晒 数 依赖 的 扩 
展 定 义 : 

部 分 函数 依赖 ( Partial functional dependency) : 关系 中 的 非 码 属性 存在 对 主 码 (或 任 一 
候选 码 ) 的 某 个 真子 集 的 函数 依赖 。 

完全 函数 依赖 (Full key functional dependency): 关系 中 的 一 个 属性 存在 对 主 码 (或 任 一 
候选 码 ) 的 了 通 数 依赖 ， 且 该 属性 不 存在 对 主 码 (或 候选 码 ) 的 部 分 函数 依赖 。 

注意 ， 图 B-2 中 的 关系 CITY 具有 一 个 主 码 CityID， 以 及 一 个 复合 候选 码 CityName、 
State。 关 系 中 的 其 余 所 有 列 ( 除 CityID 外 的 所 有 列 ) 将 完全 函数 依赖 于 主 码 CityID。 同 时 ， 
这 些 列 〈 除 CityName 、State 外 的 所 有 列 ) 也 完全 因数 依赖 于 复合 候选 码 CityName、State。 
由 于 列 StatePopulation 函数 依赖 于 State， 而 State 是 复合 候选 码 CityName 、State 的 一 个 子 
集 ， 因 而 列 StatePopulation 部 分 滑 数 依赖 于 复合 候选 码 CityName 、State。 























CITY 
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回顾 2NF 的 定义 。 

2NF: 如 果 一 个 表 满 足 1NF 且 不 包含 部 分 函数 依赖 ， 则 这 个 表 满 足 2NF， 

关系 CITY 因 和 包含 部 分 函数 依赖 ， 所 以 不 满足 2NF。 若 将 CITY 规范 化 为 2NF， 则 需要 
将 CITY 分 解 为 两 个 关系 从 而 消除 部 分 图 数 依赖 ， 如 岁 B-3 所 示 。 

图 B-4 给 出 了 已 规范 化 的 关系 中 的 记录 。 


CITY 









CityName State 
C2 orandRapis|M [190.000 
340,000 
210.000 
C5 |Ponang [OR leo0000 | 
Ce |Evgene |OR |360000 












CITY 





CitylD CityName | state CityPopulation 
arre [ae Suneronuion 





5.400.000 


图 B-3 对 关系 CITY 的 规范 化 图 B-4 已 规范 化 的 关系 CITY 中 的 数据 记录 


回顾 传递 孔 数 依赖 的 定义 : 

传递 函数 依赖 : 是 指 非 码 列 品 数 确定 关系 中 的 其 他 非 码 列 ， 

回顾 3NF 的 定义 。 

3NF: 如 果 一 个 表 满 足 2NF 且 不 包含 传递 函数 依赖 ， 则 这 个 表 满 足 3NF， 

候选 码 的 存在 将 不 会 扩充 传递 隐 数 依赖 的 定义 ， 因 为 传递 隐 数 依赖 是 定义 在 非 码 属性 间 
的 函数 依赖 。 

图 B-3 中 的 关系 已 满足 3NF。 

若 我 们 并 不 知道 CityName 、State 是 候选 码 ， 则 图 B-2 中 的 关系 CITY 将 如 何 规范 化 ? 
此 时 ， 函 数 依赖 

State —> StatePopulation 
将 被 认为 是 一 个 传递 函数 依赖 ， 因 此 ， 它 会 在 规范 化 为 3NF 时 进行 消除 ， 而 不 是 在 规范 化 
为 2NF 时 消除 。 但 两 个 规范 化 过 程 的 最 终结 果 是 相同 的 ， 同 为 图 B-3 所 示 。 换言之 ， 无 论 
CityName 、State 是 否 被 当做 候选 码 ， 关 系 CITY 将 得 到 同样 的 规范 化 结果 。 


B.2 BOYCE-CODD 范式 (BCNF ) 


BOYCE-CODD 范式 (Boyce-Codd normal form，BCNF) 是 对 3NF 的 扩展 。BCNF 的 


定义 如 下 。 
BCNF : 一 个 满足 BCNF 规范 的 关系 ， 除 具有 完全 主 码 函 数 依赖 外 ， 不 再 包含 其 他 函数 


(DJ 
Co 
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依赖 〔( 即 仅 主 码 或 是 候选 码 能 够 完全 确定 其 他 列 )。 

在 很 多 情况 下 ， 满 足 3NF 的 关系 同时 也 会 TEAMPLAYEROFTHEGAME 
满足 BCNF。 在 满足 3NF 的 关系 中 ， 那 些 仅 有 Team | TeampPlayerOfTheGame 
主 码 而 没有 候选 码 的 关系 将 同时 满足 BCNF。 但 Tigers 
也 存在 以 下 情况 : 一些 既 有 主 码 又 有 候选 码 的 关 Tm onl 


系 满足 3NF 但 不 满足 BCNF :- 例 如 考虑 图 B-> 1st Sharks | Scott McH1l 
2nd Sharks | Scott Mc#Hull 
3rd Lee Hicks 


中 的 关系 TEAMPLAYEROFTHEGAME， 该 关 
系 中 的 数据 记录 了 球 队 参加 每 场 比赛 的 队员 。 在 
本 例 中 ， 表 中 给 出 的 是 单个 完 季 的 数据 ， 不 存在 ”图 B-5 关系 TEAMPLAYEROFTHEGAME ( 满 
球 队 间 的 队员 交换 (在 单个 完整 的 赛季 中 ， [队员 足 3NF 但 不 满足 BCNF ) 

只 能 属于 某 一 支 球 队 )， 且 不 存在 任何 两 个 队员 

同名 的 情况 〈 队 员 的 姓名 都 是 唯一 的 )。 
319] 图 B-5 中 的 关系 TEAMPLAYEROFTHEGAME 对 应 的 卫 数 依赖 如 图 B-6 所 示 。 


GameOfSeason TeamPlayerOfTheGame 


图 B-6 关系 TEAMPLAYEROFTHEGAME (满足 3NF 但 不 满足 BCNF) 中 的 函数 依 琐 















Joe Jones 
Tim Smith 
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TEAMPLAYEROFTHEGAME 


关系 TEAMPLAYEROFTHEGAME 满足 3NF， 因 为 它 不 包含 部 分 或 传递 函数 依赖 。 但 
亡 不 满足 BCNF ， 因 为 非 码 属性 TeamPlayerOfTheGame 可 确定 主 码 列 Team 的 值 。 
为 了 规范 化 为 BCNE， 关 系 TEAMPLAYEROFTHEGAME 将 转变 为 两 个 关系 ， 如 图 B-7 


所 示 : 
TEAMPLAYEROFTHEGAME [Gameorseason | TeamPlayerOfTheGame | 
qemew ow 


区 B-7 关系 TEAMPLAYEROFTHEGAME 规范 化 为 BCNF 


图 B-8 给 出 了 已 规范 化 的 关系 中 的 记录 。 















TEAMPLAYEROFTHEGAME PLAYERTEAM 

GameOfSeason |TeamPlayerOfTheGame yer 
i lee 
Scott McHil 
Scott MeHil 


Scot Mer 


图 B-8 已 规范 化 的 关系 TEAMPLAYEROFTHEGAME 中 的 数据 








我 们 可 通过 选择 不 同 的 主 码 来 避免 关系 TEAMPLAYEROFTHEGAME 的 BCNF 规范 化 
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过 程 。 注 意 ， 如 图 B-5 所 示 ， 关 系 TEAMPLAYEROFTHEGAME 具有 两 个 候选 码 : 

® GameOfSeason, Ieam 

e GameOfSeason, TeamPlayerOfTheGame 

在 图 B-5 中 ，GameOfSeason、Team 被 选 为 关系 TEAMPLAYEROFTHEGAME 的 主 
码 。 而 图 B-9 中 则 选择 了 另 一 候选 码 (GameOfSeason, TeamPlayerOfTheGame) 作为 关系 
TEAMPLAYEROFTHEGAME 的 主 伍 . 


TEAMPLAYEROFTHEGAME 


GameOfSeason | TeamPlayerOfTheGame 
Scott MeHi 
















ng Secon Mor 






图 B-9” 主 码 蔡 换 后 的 关系 TEAMPLAYEROFTHEGAME 


图 B-9 中 的 关系 TEAMPLAYEROFTHEGAME 对 应 的 函数 依赖 如 图 B-10 中 所 示 。 


GameOfSeason | TeamPlayerOfTheGame 


图 B-10” 主 码 替 换 后 的 关系 TEAMPLAYEROFTHEGAME 中 的 函数 依赖 





TEAMPLAYEROFTHEGAME 





主 码 替换 后 的 关系 TEAMPLAYEROFTHEGAME 将 不 再 满足 2NF， 因 为 它 含有 一 个 部 
分 也 数 依赖 。 可 通过 为 部 分 函数 依赖 新 增 一 个 关系 (如 图 B-11 所 示 )， 利 用 (第 4 章 中 的 ) 
标准 方法 来 实现 其 2NF 规范 化 过 程 。 


TEAMPLAYEROFTHEGAME | GameOfSeason | TeamPlayerOfTheGame 


图 B-1! 主 码 替换 后 的 关系 TEAMPLAYEROFTHEGAME 规范 化 至 2NF (及 后 续 3NF、BCNF) 


注意 ， 图 B-11 中 的 关系 也 已 规范 化 至 3NF 及 BCNF。 事 实 上， 图 B-11 中 的 关系 与 
图 B-7 中 的 关系 完全 相同 。 此 外 ， 图 B-11 中 关系 的 数据 记录 也 与 图 B-8 中 的 数据 记录 完全 
相同 。 

上 述 过 程 通过 选取 不 同 的 主 码 ， 使 规范 化 过 程 不 再 是 处 理 主 码 列 对 非 码 属性 的 卫 数 依 
赖 ， 而 是 处 理 部 分 函数 依赖 关系 。 换 言 之 ， 通 过 选取 不 同 的 主 码 ， 关 系 的 规范 化 过 程 从 规范 
化 至 BCNF 转变 为 了 规范 化 至 2NF。 


B.3 第 四 范式 ( 4NF) 
考虑 图 B-12 中 的 关系 ORGANIZATION STUDENT _CHARITY。 
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在 本 例 中 ， 组 织 机 构 拥 有 学 生成 员 ， 并 支持 各 种 慈善 事业 。 关系 ORGANIZAIION _ 
STUDENT_CHARITY 中 给 出 了 每 个 组 织 机 构 的 ORGANIZATION STUDENT_CHARITY 
成 员 以 及 它 所 支持 的 慈善 事业 。 列 StudentID 及 glD CR 

11 
下 








Charity 均 将 与 列 OrgID 发 生 关联 , 但 StudentID 及 |of |1111 |FoodPantry | 
Charity 之 间 并 不 彼此 关联 。 一 个 OrgID 可 以 关联 多 |o011 |111 |Stop Diabetes | 
5 个 studenttp 值 ， 以 及 多 个 Charity 值 。 形 式 上 可 描 | 
eg 022 
eh 

OrgID 一 >” StudentID 和 OrgID —» Charity 


其 中 ， 符 号 -» ( 双 箭头 ) 代表 多 值 依赖 图 B-12 关系 ORGANIZATION_ 
.FP 付 号 一 光 I 于 — 省 
(multivalued dependency)。 多 值 依赖 也 可 称 之 为 Oe 
“ 重 数 ( 行 ) 依赖 ”。 例 如 ， 因 OrgID 一 * Charity， 则 每 当 有 一 个 新 学 生 加 入 某 个 组 织 机 构 时 ， 
则 会 产生 多 个 新 行 (每 行 均 与 该 组 织 机 构 中 的 一 个 慈善 事业 相关 联 )。 同 样 ， 因 OrgID 一 
StudentID， 每 当 有 一 个 新 慈善 事业 分 派 给 某 个 组 织 机 构 时 ， 也 会 产生 多 个 新 行 (每 行 均 与 该 
组 织 机 构 中 的 一 个 学 生成 员 相 关联 )。 

如 前 所 述 ， 多 值 依赖 将 产生 于 同一 关系 的 独立 列 间 包含 无 关 值 的 情况 下 ( 即 当 同一 关系 
代表 了 基数 大 于 1 的 多 个 单独 的 关系 时 )。 以 下 是 4NF 的 定义 。 

4NF: 如 果 一 个 关系 满足 BCNF 且 不 包含 多 值 依赖 ， 则 这 个 关系 满足 4NF-。 

因此 ， 一 个 关系 中 若 包 含 多 值 依 赖 ， 则 该 关系 将 不 满足 4NF。 

因为 多 值 依 赖 的 存在 ， 关 系 ORGANIZATION _ STUDENT_CHARITY 将 不 满足 4NF。 
要 将 其 规范 化 为 4NF ， 只 需 为 每 个 多 值 依 赖 创 建 一 个 单独 的 关系 ， 如 图 B-13 所 示 。 


ORGANIZATION STUDENT 





ORGANIZATION_CHARITY 


Food Pantry 


ol | Stop Diabetes 





图 B-13 关系 ORGANIZATION STUDENT _CHARITY 规范 化 为 4NF 


B.4 其 他 沱 式 


除了 4NF， 还 存在 更 高 层 的 范式 ， 如 第 五 范式 ( 5NF)、 域 键 范式 ( DKNF)。 这 些 范式 
B22] ”主要 用 于 一 些 实践 上 很 少 涉及 的 理论 性 概念 之 中 。 因 而 ， 这些 概念 超出 了 本 书 的 研究 范畴 。 
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企业 资源 计划 


“综合 信息 系统 ”是 这 样 一 个 系统 : 系统 内 的 数据 可 以 由 使 用 该 系统 的 组 织 机 构 中 的 多 
个 功能 区 进行 共享 。 在 公司 这 一 组 织 机 构 内 ， 其 功能 区 包括 市 场 、 销 售 、 人 力 资源 等 。 以 非 
元 余 方 式 实现 数据 存储 的 任 一 数据 库 均 可 由 构成 综合 信息 系统 的 不 同 功能 区 来 进行 使 用 。 

企业 资源 计划 ( ERP) 系统 ( Enterprise resources planning system) 是 工业 中 用 于 描述 


预 置 的 、 综 合 性 的 (多 功能 的 ) 公司 信息 系统 的 术语 。ERP 系统 由 ERP 销售 商 (如 SAP、 
Oracle 、Lawson ) 设计 、 创 建 并 销售 。 一 个 购买 并 安装 了 ERP 系统 的 公司 则 可 以 使 用 自己 
的 数据 进行 系统 移植 。 


从 数据 库 的 角度 看 ，ERP 代表 一 个 预 置 的 数据 库 ， 该 数据 库 为 各 种 用 户 群 体 预 置 了 多 个 
前 端 接口 。ERP 概念 之 中 隐 


含 的 思想 是 : 创建 一 个 空 的 

数据 库 ， 其 中 的 数据 表 以 及 
列 则 用 于 获取 公司 中 各 种 群 

体 成 员 用 户 将 使 用 的 数据 。 

ERP 数据 库 中 带 有 大 量 的 

不 同 组 件 ， 容 纳 了 为 不 同 的 

用 户 群 组 所 创建 的 用 于 数据 烧 块 2 
库 访 问 的 前 端 应 用 。 图 C-1 

给 出 了 一 个 ERP 系统 架构 

的 高 层 视 图 。 

用 于 典型 ERP 系统 的 模块 反映 了 公司 中 的 部 门 或 组 织 结 构 。 例 如 ， 一 个 ERP 系统 可 以 
包含 如 下 模块 : 

e 人 力 资源 (HR) 模块 。 

e 财务 账目 模块 。 

e 销售 模块 。 

e 市 场 模 块 。 

e 制造 模块 。 

e 其 他 模块 。 

图 C-2 给 出 了 一 个 带 有 大 量 可 用 模块 的 ERP 系统 。 

当 公 司 购 买 并 安装 了 一 个 如 图 C-2 所 示 的 ERP 系统 时 ， 便 会 将 先前 的 数据 表 移 植 到 
ERP 数据 库 中 ， 这 些 数据 表 是 该 公司 中 有 关 人 力 资源 、 财 务 账目 、 销 售 、 市 场 、 制 造 等 方面 
的 数据 。 假 如 有 的 数据 关系 到 不 止 一 个 部 门 ， 这 些 数 据 将 仅 需 存储 一 次 ， 并 可 由 多 个 模块 进 
行 访 问 。 例 如 ， 顾 客 数 据 被 一 次 性 储存 在 中 心 数据 库 中 ， 并 可 由 销售 模块 、 市 场 模块 或 财务 
账目 等 多 模块 访问 。 





图 C-1 ERP 系统 
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公司 在 购买 ERP 系统 时 ， 不必 购 买 和 安装 所 有 的 可 用 模块 ， 而 是 可 以 使 用 一 个 或 几 个 
模块 进行 初始 化 配置 ， 并 在 
后 期 需要 时 再 进行 其 他 模块 
的 加 载 . 

ERP 系统 可 帮助 公司 
统一 整个 业务 流程 。 例如 ， BR 楼 区 
在 一 个 ERP 系统 中 ，HR 模 





块 包含 了 用 于 访问 ERP 数 

据 库 表 及 列 的 前 端 应 用 ， 

ERP 数据 库 中 容纳 了 用 于 

标准 HR 过 程 及 步骤 的 相关 

数据 ， 如 招聘 、 雇 用 、 工 财务 账目 Vy A 

资 单 等 。 在 HR 模块 及 ERP 模块 、 DBMS” 

数据 库 HR 部 分 的 设计 阶 0 

段 ，ERP 销售 商 运 用 HR 的 

专家 知识 与 经 验 ， 以 专业 的 

方式 解释 并 帮助 实施 所 有 典 图 C-2 ”一 个 典型 ERP 系统 中 的 各 种 可 用 模块 


型 的 HR 功能 。ERP 系统 中 
的 其 他 模块 将 实施 其 他 标准 化 过 程 ， 并 以 同样 的 方式 进行 创建 。 

设计 ERP 系统 是 为 了 反映 一 个 特定 商业 过 程 的 最 佳 工 业 实 践 方案 。 知 公司 拥有 一 个 
ERP 系统 ， 但 其 商业 过 程 却 与 ERP 系统 执行 方式 有 所 不 同时 ， 公 司 可 选择 修正 其 操作 过 程 
以 匹配 ERP 系统 中 提供 的 最 佳 实践 方案 ， 或 对 ERP 系统 做 出 可 允许 的 调整 以 匹配 公司 的 实 
践 过 程 ， 或 是 将 这 些 方法 结合 使 用 。 

在 公司 中 ， 并 非 所 有 商业 过 程 都 是 标准 化 的 商业 过 程 。 在 运作 成 功 的 公司 里 ,很 多 商业 
过 程 都 是 原创 性 的 ， 尤 其 是 那些 用 于 创造 或 增加 竞争 优势 的 过 程 。 这 些 过 程 的 具体 细节 常常 
是 需要 严守 机 密 信 息 ， 所 以 ERP 销售 商 根 本 无 法 获取 。 支 持 非 标 准 化 过 程 的 数据 表 与 模块 
在 ERP 系统 中 是 不 可 用 的 。 为 了 处 理 这 些 过 程 ， 公 司 不 得 不 开发 自己 的 数据 库 与 前 端 应 用 。 
因此 ， 公 司 不 能 仅 依 赖 于 ERP 系统 去 满足 其 信息 系统 的 所 有 需要 。 

ERP 的 数据 库 与 模块 以 特定 的 方式 实现 了 每 个 过 程 的 标准 化 。 特 定 的 方式 可 能 并 不 意味 
着 公司 想 要 为 某 个 过 程 而 存储 和 使 用 数据 。 一 些 公 司 使 用 ERP 系统 简化 部 分 或 全 部 的 标准 
化 过 程 ， 而 另 一 些 公 司 则 根本 不 使 用 ERP 系统 。 

ERP 系统 的 购买 与 实施 似乎 是 一 个 简单 而 直接 的 任务 ， 但 是 ，ERP 系统 的 部 署 时 间 可 
能 长 达 几 个 月 〈 甚 至 几 年 )， 且 不 少 ERP 项 目 况 以 失败 告终 。 导 致 ERP 系统 实施 失败 的 一 个 
主要 原因 是 ,客户 缺 乏 对 ERP 系统 前 期 细节 的 检查 ,并 缺乏 对 ERP 系统 与 公司 商业 过 程 之 
间 的 比较 ， 这 将 可 能 导致 ERP 系统 性 能 与 公司 需求 和 实践 之 间 的 不 良 匹 配 。 

值得 注意 的 是 ，ERP 系统 将 迫使 一 个 组 织 去 适应 该 ERP， 而 非 相 反 。 那 些 需求 性 的 调 
整 并 不 总 是 顺利 的 (就 算 它们 代表 着 对 现 有 实践 过 程 的 一 种 提升 )， 并 可 能 导致 冲突 与 阻碍 。 
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数据 管理 与 主 数据 管理 


D.1 数据 管理 


数据 管理 ( data governance) 是 一 个 广义 的 术语 ， 用 于 组 织 机 构 中 的 权限 定义 ， 以 正式 
规定 组 织 中 的 数据 与 元 数据 在 何 时 、 以 何 种 方式 、 由 谁 来 进行 创建 、 储 存 、 更 新 (插入 、 修 
改 、 删 除 ) 及 存档 . 

在 很 多 组 织 机 构 中 ， 尽 管 数据 是 最 重要 的 资产 之 一 (如 果 不 是 最 重要 的 ， 也 应 是 最 重要 
的 之 一 )， 但 它 往往 并 不 具备 与 其 他 资产 同等 重要 的 地 位 ， 比 如 不 动产 、 资 金 或 是 汽车 ， 这 
些 物件 均 是 传统 意义 上 的 重要 资源 。 不 过 ， 越 来 越 多 的 公司 已 经 逐渐 意识 到 数据 的 重要 意 
义 ， 并 开始 实施 数据 管理 工作 。 

数据 管理 的 目标 是 建立 与 实施 关于 数据 处 理 的 正确 规则 与 策略 。 这 一 做 法 使 得 组 织 机 构 
在 形式 上 可 以 规范 化 数据 的 管理 ， 类 似 于 规范 化 其 他 重要 资产 的 管理 ， 如 金融 资产 。 例 如 ， 
很 多 公司 都 有 严格 的 规定 ， 确 定 谁 有 权 使 用 公司 的 资金 、 为 何人 使用、 在 哪些 场合 使 用 ， 由 谁 
授权 使 用 等 。 为 了 处 理 公 司 的 数据 ， 数 据 管理 过 程 也 制定 了 类 似 的 规定 。 

关于 数据 管理 的 一 个 实例 是 第 10 章 所 述 的 数据 库 政策 与 标准 的 开发 与 实施 ， 男 一 个 实 
例 则 是 第 6 章 所 述 的 通过 制定 政策 对 数据 质量 行为 进行 预防 与 校正 。 很 多 情况 下 ， 数 据 管理 
权 将 会 关系 到 广泛 的 法 律 与 组 织 中 的 行为 管理 规定 。 例 如 ， 美 国 卫 生 保 健 机 构 的 数据 管理 实 
践 活动 必须 与 健康 保险 流通 与 责任 法 案 ( HIPAA) 相 一 致 ， 该 法 案由 美国 联邦 政府 执行 。 该 
法 案 的 条 款 规 定 对 患者 信息 的 使 用 与 披露 必须 具有 严格 的 隐私 性 。 在 美国 卫生 保健 机 构 中 ， 
这 些 法 规 必须 在 数据 库 系 统 中 实施 ， 并 将 患者 信息 组 织 成 其 整个 管理 框架 中 的 一 个 部 分 。 

在 很 多 组 织 中 ， 数 据 专 员 (data steward) 角色 将 完成 数据 管理 相关 的 任务 。 数 据 专员 人 负 
责 数据 库 中 数据 的 正确 使 用 ， 典 型 的 管理 活动 包括 : 

e 为 确保 适当 的 数据 录入 、 数 据 更 新 及 数据 使 用 ,创建 并 实施 相关 的 政策 与 标准 。 

e 创建 并 实施 数据 质量 监控 。 

e 创建 、 实 施 并 维护 商业 元 数据 (例如 商业 规则 、 表 与 列 的 描述 等 ) 。 

e 其 他 可 确保 数据 管理 政策 承诺 的 行为 。 

除了 数据 专员 角色 ， 很 多 组 织 中 也 设 有 数据 管理 者 角色 。 数据 管理 者 ( data custodian ) 
负责 数据 管理 及 使 用 中 的 技术 问题 ， 比 如 数据 的 保护 、 传 输 与 存储 。 很 多 组 织 中 ， 数 据 专 
员 、 数 据 管理 者 及 DBA 角色 间 具 有 明显 的 重 登 。 对 于 头衔 与 相关 责任 的 分 配 ， 在 不 同 的 组 
织 中 差异 很 大 。 


D.2 主 数 据 管理 


主 数据 管理 ( master data management，MDM) 是 最 常见 的 组 织 数据 管理 权 之 一 。 组 织 
的 主 数据 包含 主要 数据 的 质量 认证 版 本 ， 这 些 数据 将 为 组 织 机 构 的 信息 系统 提供 一 个 共同 的 参 


考点 。 一 旦 主 数 据 配置 到 位 ， 则 组 织 内 的 操作 型 信息 系统 将 确保 自己 的 数据 与 主 数据 相 匹 配 。 

例如 ，ZAGI 零售 公司 需要 维护 一 个 数据 表 MASTERPRODUCT， 该 表 中 包含 了 由 
ZAGI 零售 公司 出 售 的 所 有 产品 信息 。ZAGI 公司 里 使 用 产品 信息 的 所 有 信息 系统 必须 检查 
并 确保 其 产品 信息 与 数据 表 MASTERPRODUCT 中 的 产品 信息 相 一 致 。 

主 数据 管理 包括 对 主 数据 质量 表 的 采集 行为 的 创建 与 维护 ， 并 确保 主 数据 的 使 用 已 散人 
到 组 织 的 操作 型 信息 系统 中 。 确 保 主 数据 的 最 高 质量 是 一 项 基本 要 求 。 主 数据 必须 展现 高 质 
量 数据 的 所 有 特性 (准确 性 、 唯 一 性 、 完 整 性 、 一 致 性 、 及 时 性 、 统 一 性 )， 正 如 第 6 章 中 
所 摘 述 的 。 

在 操作 型 信息 系统 里 ， 并 非 所 有 数据 都 是 主 数据 。 但 是 ， 对 应 于 主 数据 的 数据 必须 与 
主 数据 保持 一 致 。 考 虑 以 下 例子 ,在 ZAGI 零 售 公 司 存储 部 工作 的 某 个 职员 记录 了 以 下 信 
息 : 在 公司 的 销售 管理 信息 系统 中 ， 某 个 顾客 在 上 午 8:00 购买 了 某 产 品 3 人 个。 产品 数量 
(3) 及 购物 时 间 (上 午 8:00 ) 与 主 数据 无 关 。 但 假若 存在 主 数据 表 MASTERPRODUCT、 
MASTERCUSTOMER 及 MASTERSTORE， 则 销售 信息 系统 中 关于 产品 、 顾 客 及 存储 的 数 
据 都 需要 进行 验证 ， 并 与 这 些 主 数据 表 保 持 一 致 。 

正确 的 主 数据 可 以 确保 组 织 中 所 使 用 的 关键 信息 具有 一 致 性 。 操 作 型 系统 中 的 主 数据 概 
念 类 似 于 第 8 章 所 讨论 的 数据 仓库 的 “一 致 维度 ”概念 。 只 是 一 致 维度 所 提供 的 一 套 质量 参 
垢 数据 用 于 一 致 性 分 析 ， 而 主 数据 所 提供 的 一 套 质量 参考 数据 则 用 于 一 致 性 操作 。 

对 主 数据 的 管理 存在 着 多 种 体系 ，3 种 主要 方法 是 : 

e 中 心 法 。 

e 注册 登记 法 。 

e 混合 法 。 

在 中 心 法 下 ， 操 作 型 系统 将 对 主 数据 采用 单一 中 心 副 本 策略 。 非 主 数据 依然 可 由 系统 来 
收集 与 维护 ， 而 主 数据 的 所 有 实例 却 可 以 利用 中 心 主 数据 副本 进行 恢复 与 更 新 。 中 心 法 如 
图 D-1 所 示 。 





图 D-1 中 心 化 的 主 数据 


与 中 心 法 相反 的 一 个 方法 ， 则 是 将 所 有 的 主 数据 存放 在 各 个 单独 的 操作 信息 系统 中 。 
这 些 分 离 的 主 数据 将 通过 一 个 主 数据 中 心 注 册 表 来 进行 连接 。 主 数据 注册 表 ( master data 
registry) 仅 包 含 一 个 关键 字 列 表 ， 用 于 连接 及 整合 位 于 操作 型 系统 中 的 实际 的 主 数据 。 主 数 
据 注 册 表 人 允许 单个 信息 系统 从 其 他 信息 系统 中 访问 主 数 据 ， 用 以 匹配 与 支撑 本 系统 中 的 主 数 
据 。 主 数 据 注 册 表 如 图 D-2 所 示 。 
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图 D-2 主 数据 注册 表 


在 混合 法 中 ， 主 数据 的 存储 结合 了 前 述 两 个 方法 。 和 存在 一 个 实际 的 主 数据 中 心 副本 ,但 
也 人 允许 单个 的 操作 型 系统 持 有 上 自己 的 主 数据 副本 。 主 数据 中 心 副 本 与 其 他 的 主 数 据 副 本 将 通 
过 主 数 据 中 心 注册 表 进 行 连接 与 整合 。 混 合法 如 图 D-3 所 示 。 
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图 D-3 混合 MDM 方法 


在 混合 法 的 部 分 实施 过 程 中 ， 主 数据 仅 在 中 心 副 本 中 进行 更 新 (插入 、 删 除 、 修 改 )， 
且 所 有 更 新 将 会 传播 到 操作 型 系统 的 副本 之 中 。 而 其 他 实施 过 程 则 允许 主 数据 在 单个 的 操作 
型 系统 中 进行 更 新 ， 这 些 数据 改变 将 被 传播 到 中 心 副 本 中 ， 再 进一步 传播 到 其 他 操作 型 系 
统 中 。 

此 外 ， 在 部 分 实施 过 程 中 ， 整 套 主 数据 都 将 呈现 在 中 心 副本 与 所 有 的 单个 操作 型 系统 
中 ， 而 其 他 实施 过 程 中 则 仅 有 部 分 主 数据 被 呈现 在 中 心 副 本 与 单个 操作 型 系统 中 。 
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面 癌 对 象 数据 庄 





面向 对 象 数 据 库 (object-oriented database，OODB ) 系统 也 称 作 对 象 数 据 库 系 统 
( ODBS)， 是 基于 所 谓 的 面向 对 象 概念 的 数据 库 系 统 。 本 附录 中 将 给 出 这 些 概念 的 简要 概述 ， 
并 说 明 它 们 将 如 何 用 于 OODB。 面 向 对 象 的 概念 是 在 面向 对 象 程 序 设 计 语 言 中 首先 引入 的 。 
一 个 面向 对 象 的 数据 库 管理 系统 (OODBMS ) 包含 了 数据 库 系 统 的 特征 ， 以 及 源 自 面 回 对 象 
程序 设计 语言 的 面 癌 对 象 特征 。 

OODBMS 是 为 了 克服 现 有 数据 库 (如 关系 数据 库 ) 的 局 限 性 而 提出 的 ， 用 于 设计 与 执 
行 复杂 的 数据 库 应 用 。 复杂 的 数据 库 应 用 包括 多 媒体 数据 库 、 地 理 信 息 系 统 (GIS)， 用 于 计 
算 机 辅助 设计 (CAD ) 与 计算 机 辅助 制造 (CAM ) 的 数据 库 。 这 些 数 据 库 需要 存储 并 操作 各 
种 对 象 ， 如 图 像 、 地 图 及 视频 等 ， 它 们 都 不 是 关系 模式 中 所 使 用 的 典型 数据 类 型 ， 不 符合 
系 表 中 的 行 、 列 概念 ， 并 需要 有 比 典 型 的 关系 操作 更 多 的 操作 。 


E.1 面向 对 象 概念 


在 OODB 中 ， 对 象 (object) 对 应 于 现实 世界 中 的 客体 ， 这 一 概念 与 ER 模型 中 的 实体 
具有 同样 的 意义 。 除 了 对 象 属性 ( object attribute ) (等 价 于 实体 属性 )， 对 象 还 具有 对 象 操 作 
( object operation) (也 称 为 “方法 ”， 本 附录 的 后 续 部 分 将 进行 说 明 )， 以 及 系统 所 生成 的 对 
象 标识 ( object identifier，OID)。 在 OODB 中 ， 分 享 同 种 结构 与 操作 的 对 象 将 形成 一 个 类 
(class)， 特 定 类 的 对 象 称 为 该 类 的 实例 (class instance ) 。 

OID 不 同 于 主 码 ， 因 为 OID 值 由 OODB 系统 自动 分 配 且 不 可 改变 。 然 而 ， 在 关系 数据 
库 中 ， 主 码 是 基于 值 的 ( 即 在 关系 中 ， 可 使 用 其 他 列 值 的 录 人 方式 来 录入 主 码 值 )， 且 主 码 
值 是 可 以 改变 的 。 在 整个 面向 对 象 的 数据 库 中 ，OID 值 是 唯一 的 。 而 在 关系 数据 库 中 ， 存 
在 于 两 个 独立 关系 中 的 两 个 主 码 值 则 可 以 是 相同 的 。 主 码 (关系 型 数据 库 ) 
考虑 图 E-1 中 的 例子 。 EMPLOYEE CUSTOMER 

图 E-1 的 上 半 部 分 给 出 了 EMPLOYEE 及 
CUSTOMER 两 个 关系 表 ， 其 中 EMPLOYEE 具 
有 主 码 列 EID 及 列 EName, CUSTOMER 具 有 主 
码 列 CID 及 列 CName。 该 图 的 下 半 部 分 给 出 了 
EMPLOYEE 及 CUSTOMER 两 个 对 象 的 类 ， 分 别 含 OID (面向 对 象 数据 库 ) 
有 属性 值 EName 及 CName， 且 每 个 对 象 有 各 自 的 ” EMPLOYEE CUSTOMER 
OID。 在 关系 表 中 ， 给 定 的 主 码 值 是 可 以 改变 的 ， 即 
便 主 码 值 变 了 ， 码 值 所 在 的 行 依然 代表 着 先前 的 实 
例 (例如 ， 一 个 改变 了 EID 值 的 行 依然 代表 着 同一 
个 雇员 )。 而 在 OODB 中 ， 每 个 对 象 有 且 仅 有 一 个 
OID 值 ， 其 OID 值 不 能 被 其 他 对 象 重 用 ， 即 便 是 其 图 E-1 主 码 与 OID 的 对 比 
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他 类 里 的 对 象 也 不 能 出 现 重用 。 这 也 是 图 E-1 下 半 部 分 的 所 有 OID 值 均 唯一 的 原因 。 注 意 ， 
OID 并 非 是 对 象 的 属性 值 ，OID 的 唯一 作用 是 将 对 象 进行 区 分 ， 它 并 未 携带 其 他 更 多 信息 ， 
日 不 会 显示 给 数据 库 用 户 ， 而 对 象 的 属性 值 是 可 显示 的 。 

如 前 所 述 ， 分 享 同样 结构 与 操作 的 对 象 将 形成 一 个 类 。 例 如 ， 数 据 库 HAFH (在 第 2、3、 
5 章 中 曾 使 用 ) 可 扩展 包含 出 租 商 的 信息 ， 且 出 租 商 可 由 个 体 出 租 商 或 企业 出 租 商 构成 。 这 样 ， 
数据 库 中 用 于 代表 公 帘 出 租 商 的 数据 对 象 可 划分 为 INDIVIDUAL 及 CORPORATECLIENT 两 
个 类 。 在 OODB 中 ， 类 可 以 组 织 成 类 层次 / 特 化 层次 (class hierarchy / specialization hierarchy ) 
结构 。 图 E-2 中 给 出 了 由 类 RENTER、INDIVIDUAL 及 CORPORATECLIENT 所 形成 的 
类 层次 结构 。 一 个 特 化 层次 结构 被 描述 为 一 个 “1S-A” 关 系 。 图 E-2 中 展现 了 公寓 的 一 个 
CORPORATECLIENT 719-4 RENTER 关系 与 一 个 INDIVIDUAL 1S-4 RENTER 关系 。 


RENTER 


RenterName 
| LeaseDate 








CORPORATECLIENT 


CCIndustry 
CCLocation 






INDIVIDUAL 


Address 
Employer 
SSN 













色 E-2 类 的 层次 结构 示例 


在 图 E-2 中 ，CORPORATECLIENT 及 INDIVIDUAL 都 是 类 RENTER 的 子 类 ( subclass )， 
而 类 RENTER 则 是 类 CORPORATECLIENT 及 INDIVIDUAL 的 超 类 (superclass)。 在 类 层次 
结构 中 ， 每 个 类 均 有 自己 的 属性 。 新 类 将 从 现 有 类 中 进行 创建 ( 即 子 类 从 超 类 中 创建 )， 且 超 
类 的 属性 将 被 子 类 继承 。 例 如 ， 在 图 E-2 中 ， 类 RENTER 的 属性 为 RenterName 及 LeaseDate ; 
而 类 INDIVIDUAL 具有 属性 Address、Employer、SSN， 以 及 从 类 RENTER 中 继承 而 来 的 属性 
RenterName 、LeaseDate ; 类 CORPORATECLIENT 则 具有 属性 CCIndustry 、CCLocation， 以 及 
从 类 RENTER 中 继承 而 来 的 属性 RenterName、LeaseDate。 

除了 传统 的 内 置 数 据 类 型 ， 如 变 长 字符 类 型 、 日 期 类 型 等 ，OODB 允许 创建 与 使 用 用 户 
自 定义 的 数据 类 型 。 用 户 自 定义 类 型 (user-defined type，UDT) 具有 以 下 格式 :° 


CREATE TYPE type name AS (<components>) 


我 们 将 利用 图 E-2 中 的 类 RENTER、CORPORATECLIENT 及 INDIVIDUAL 对 UDT 概 
念 加 以 说 明 。 例 如 ，renter type 将 包含 rentername 及 leasedate 两 个 组 件 ， 并 分 别 对 应 于 数 
据 类 型 varchar 及 date ; individual type 将 包含 三 个 组 件 ， 其 中 address 及 employer 对 应 于 
数据 类 型 varchar， 而 ssn 则 对 应 于 数据 类 型 char ; corporateclient type 将 包含 ccindustry 及 
cclocation 两 个 组 件 ， 其 类 型 均 为 varchar。 

关键 字 UNDER 用 于 表明 所 定义 的 类 型 是 一 个 子 类 ， 且 将 会 继承 对 应 超 类 的 属性 与 方 
法 。 换 言 之 ,关键 字 UNDER 表示 被 定义 的 类 型 在 类 的 层次 结构 中 位 于 超 类 的 “下 方 ”。 


昌 本 附录 的 例子 中 采用 了 DDL 与 DML， 这 与 关系 -对 象 数据 库 (将 在 本 附录 的 结尾 处 进行 描述 ) 中 使 用 的 
UDT 相 一 致 ，UDT 提供 了 对 现 有 SQL 的 扩展 . 
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CREATE TYPE renter type AS 
(rentername VARCHAR (25), 
leasedate DRATE) ; 


CREATE TYPE individual type UNDER renter type AS 


(address VARCHAR (25) ， 
employer VARCHAR (20) ， 
ssn CHAR (9)),; 


CREATE TYPE corporateclient type UNDER renter type AS 
(ccindustry VARCHAR(25), 
cclocation VARCHAR(25)), 


individual type 是 renter_type 的 一 个 子 类 ， 因 而 将 继承 renter_type 的 所 有 属性 ， 这 意味 着 
individual type 将 包含 以 下 属性 : rentername、leasedate 、address 、employer 及 ssn。 类 似 
地 , corporateclient_type 也 是 renter_type 的 一 个 子 类 并 继承 了 其 所 有 属性 ， 将 包含 以 下 属性 : 
rentername 、leasedate 、ccindustry 、cclocation - 

新 创建 的 类 型 可 用 于 定义 其 他 新 类 型 。 例如， 我 们 可 以 创建 一 个 name_type， 并 包含 三 
个 组 件 : firstname、minitial 及 lastname。 


CREATE TYPE name type AS 
(firstname VARCHAR (10), 
minitial CHAR (1), 
lastname VARCHAR (10) ) ; 


然后 我 们 可 以 为 类 MANAGER 创建 一 个 新 类 型 ， 名 为 mgr type， 并 包含 属性 mname， 该 属 
性 的 数据 类 型 为 name type。 


CREATE TYPE mgr type AS 
(managerid CHAR (4), 


mname name type, 

msalary NUMERIC (9,2)); 
则 类 型 mgr_type 所 生成 的 对 象 将 具有 以 下 属性 : managerid 、firstname 、minitial 、lastname 
及 msalary。 


获 套 对 象 ( nested object) 即 出 现在 另 一 对 象 中 的 对 象 。 我 们 考虑 与 HAFH 数据 库 相 似 
的 一 个 例子 : 一 尽 大 楼 由 某 个 特定 的 管理 员 进 行 管理 。 我 们 为 大 楼 对 象 创建 一 个 新 的 类 型 
bldg_type_nest， 其 中 包含 了 类 型 为 mgr_type 的 航 套 对 象 bmanager。 


CREATE TYPE bldg type nest AS 
(buildingid CHAR (3), 
bnooffloors INT, 
bmanager mgr type); 


类 型 bldg type_nest 的 对 象 将 包含 属性 : buildingid、bnooffloors、managerid、mname、msalary， 
这 些 属 性 均 与 大 楼 管理 相关 。 另 一 个 舱 套 对 象 的 例子 是 mgr type 类 型 中 的 mname。 

当 一 个 对 象 被 另 一 对 象 所 参照 时 ， 便 生成 了 参照 对 象 (reference object)。 为 了 表示 对 象 
的 参照 类 型 ， 我 们 采用 关键 字 REF 来 指明 对 象 的 参照 类 型 。 参 照 类 型 将 作为 对 象 的 OID 来 
执行 。 将 数据 插入 数据 库 时 ， 其 参照 必须 指定 到 一 个 特定 的 管理 员 。 我 们 再 次 考虑 大 楼 对 
象 ， 这 次 不 再 定义 大 楼 的 管理 员 为 一 个 藤 套 类 型 ， 而 是 定义 为 一 个 参照 类 型 。 为 此 ， 我们 创 
建新 类 型 bldg_type_ref， 包 含 类 型 为 mgr_type 的 参照 对 象 bmanager。 


CREATE TYPE bldg type ref AS 
(buildingid CHAR (3), 
bnooffloors INT， 
bmanager REF mgr type) 


参照 对 象 的 执行 不 同 于 舱 套 对 象 。 舱 套 对 象 中 含有 该 对 象 的 确切 值 ， 这 意味 着 
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managerid、mname 及 msalary 的 值 将 被 复制 到 对 象 building 的 bmanager 属性 之 中 。 而 参照 
对 象 则 不 同 ， 此 时 ， 只 有 OID 会 
复制 到 对 和 象 building 的 bmanager RenterName 
属性 之 中 。 ee 

除了 自己 特有 的 属性 值 外 ， 
类 层次 结构 中 的 每 个 类 均 有 自己 
的 函数 实现 方法 ， 这 些 方法 将 作 
用 于 该 类 所 生成 的 对 象 ， 如 图 E-3 
所 示 。 CCLocation 

SSN 

在 进行 类 型 定义 时 ， 除 了 定 
人 图 E-3 类 的 层次 结构 示例 ， 用 类 方法 进行 了 扩展 
如 图 E-3 的 示例 中 ， 在 创建 renter_ 
type 时 ， 将 定义 困 数 VerifyLeaseExpiration() 在 以 下 情况 返回 TRUE : 从 LeaseDate 至 今 ， 时 
间 尚 未 超过 1 年 ; 而 在 以 下 情况 返回 FALSE : 从 LeaseDate 至 今 ， 时 间 已 经 达到 或 超过 1 年 。 
在 创建 individual type 时 ， 将 定义 函数 CalculateIndDiscount()， 为 特定 的 雇员 返回 其 商品 折扣 
值 。 类 似 地 ， 在 创建 corporateclient type 时 ， 也 将 对 肾 数 CalculateCorpDiscount() 做 出 定义 。 
在 类 层次 结构 中 ， 超 类 的 属性 与 方法 均 会 由 子 类 继承 。 例 如 ， 在 图 E-3 中 ， 类 RENTER 的 
属性 是 RenterName、LeaseDate， 方 法 是 VerifyLeaseExpiration()， 则 子 类 INDIVIDUAL 的 属 
性 为 Address、Employer、SSN、RenterName 及 LeaseDate， 方 法 则 为 VerifyLeaseExpiration() 
及 CalculateIndDiscount() ; 子 类 CORPORATECLIENT 的 属性 为 CCIndustry、CCLocation、 
RenterName 及 LeaseDate， 而 方法 则 为 VerifyLeaseExpiration() 及 CalculateCorpDiscount()。 


E.2 面向 对 象 查 询 


在 一 个 类 中 ， 当 对 象 类 型 已 经 定义 后 ， 以 下 表格 创建 语句 可 用 于 为 类 型 mgr_type 与 
bldg type 创建 对 象 。 


CREATE TABLE manager RS mgr type; 
CREATE TABLE building AS bldg type nest,; 


一 旦 相应 的 对 象 ( 表 ) 被 创建 ， 且 使 用 其 他 命令 向 其 中 插入 了 数据 实例 ， 则 对 象 便 可 以 进行 
据 的 更 新 与 恢复 操作 。 该 语言 ”中 涵盖 了 对 髋 套 对 象 及 参照 对 象 进行 查询 与 更 新 的 功能 。 
我 们 将 使 用 以 下 例子 来 进行 说 明 ， 该 例子 中 考虑 了 管理 员 以 及 大 楼 对 象 ， 类 似 于 HAFH 
Query X 的 文本 描述 : 查询 每 栋 大 楼 的 ID 以 及 大 楼 管理 员 的 姓名 。 
使 用 上 述 已 经 创建 好 的 类 型 与 表 ， 该 查询 可 表示 如 下 。 
Query X (用 于 OODB ): 










CORPORATECLIENT 


CCIndustry 


INDIVIDUAL 


Address 
Employer 
















SELECT buildingid, bmanager.firstname, 
bmanager .minitial, bmanager.lastname 
FROM building; 


昌 对 象 查询 语言 (OQL) 是 由 对 象 数 据 管 理 组 (ODMG) 所 设计 的 一 种 类 SQL 查询 语言 ， 该 管理 组 致力 于 为 
ODBS 提出 一 种 标准 化 查询 语言 。OQL 是 复杂 的 ， 还 没有 一 -个 商用 数据 库 能 够 完全 地 执行 OQL 语言 ， 但 一 
个 类 SQL 查询 语言 在 OODB 或 是 ORDB 中 则 是 典型 可 用 的 。 
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在 OODB 的 Query X 中 ,“.” 用 于 限制 谍 套 对 象 中 的 属性 名 ， 以 使 其 含有 骸 套 对 象 名 。 例 如 ， 
各 套 对 象 bmanager 中 的 属性 frstname 被 指定 为 bmanager.firstname。OODB 的 Query X 可 称 
为 “路 径 查 询 "， 因 为 它 使 用 “.” 来 穿越 谍 套 对 象 。 注 意 ， 查询 中 要 求 building 表 在 FROM 
子 句 中 单独 指定 ， 而 manager 表 则 不 必 指 定 。 

我 们 将 对 OODB 中 的 Query X 与 关系 数据 库 中 同样 的 查询 进行 比较 。 假 设 在 关系 数据 
库 中 ， 其 manager 表 与 building 表 定 义 如 下 : 


CREATE TARLE manager 


(managerid CHAR (4), 
mfirstname VARCHAR (10) ， 
minitial CHAR (1)， 
mlastname VARCHAR (10)) 
msalary NUMERIC (9,2) 
PRIMARY KEY (managerid) ) ; 
CREATE TABLE building 
buildingid CHAR (3), 
bnooff loors INT, 
bmanagerid CHAR (4) 
PRIMARY KEY (buildingid), 
FOREIGN KEY (bmanagerid) REFERENCES 


manager (managerid) ); 
使 用 上 订 忆 创建 的 两 个 表 ， 关 系数 据 库 中 的 Query X 定义 如 下 : 
Query X (用 于 关系 数据 库 ): 


SELECT buildingid, mfirstname, minitial, mlastname 
FROM manager, building 
WHERE managerid = bmanagerigd, 


关系 数据 库 中 的 Query X 需 要 在 MANAGER 与 BUILDING 两 个 表 之 间 进 行 连接 操 
作 ， 该 操作 利用 了 FROM 子 句 中 罗列 出 的 两 个 表 、 并 通过 WHERE 子 句 中 给 出 的 连接 条 件 
managerid = bmanagerid 来 指定 。 而 路 径 查 询 已 在 基于 OODB 的 Query X 中 给 出 可 
消除 连接 操作 的 需要 ， 因 而 ， 路 径 查 询 过 程 将 比 基 于 连接 的 查询 过 程 速度 更 快 。 

在 OODB 中 ,连接 操作 的 需要 并 不 是 在 各 种 情况 下 均 能 完全 消除 。 基 于 OODB 的 设计 
及 相应 的 查询 过 程 ， 可 能 依然 需要 连接 操作 . 


E.3 对 象 - 关 系数 据 库 


对 象 一 关系 数据 库 ( object-relational database ，ORDB) 是 一 种 关系 数据 库 ， 该 数据 库 
同时 具有 一 些 面向 对 象 的 特性 。ORDB 管理 系统 被 认为 是 关系 数据 库 系统 的 扩展 。ORDB 主 
要 包含 一 些 使 用 最 广泛 的 面向 对 象 特 征 ， 如 OID 、 继 承 、 任 意 数 据 类 型 、 艇 套 对 象 、 参 照 对 
象 及 方法 等 。 典 型 的 ORDB 允许 用 户 创建 对 象 类 型 以 及 对 象 表 。ORDBMS 被 成 功 地 用 于 管 
理 媒 体 对 象 及 复杂 数据 的 应 用 ， 如 地 理 空间 及 金融 时 间 序 列 数据 系统 等 。ORDB 的 一 个 缺陷 
是 ， 在 特定 情形 下 可 能 会 降低 性 能 ， 这 是 因为 面向 对 象 特 征 是 创建 在 现存 关系 数据 库 管 理 系 
统 的 顶层 ， 这 就 使 得 性 能 优化 比较 困难 。 当 用 户 已 经 熟悉 了 关系 数据 库 ， 且 又 需要 使 用 更 多 
面向 对 象 的 特征 时 ，ORDB 将 为 其 提供 方便 。 很 多 市 面 上 出 售 的 关系 数据 库 都 具有 对 象 - 关 
系 的 特征 。 同 时 ， 市 面 上 也 存在 面向 对 象 的 数据 库 ， 但 它们 并 没有 获得 与 对 象 - 关系 数据 库 
同样 广泛 的 使 用 。 
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分 布 式 数据 库 系 统 (distributed database system，DDBS) 是 分 布 于 不 同 计算 机 上 的 数据 
库 系统 。 在 DDBS 系统 中 ， 允 许 进 行 数据 分 享 ， 并 提供 了 数据 库 的 本 地 控制 与 自主 权 。 分 
布 式 数 据 库 反 映 了 自然 分 布 的 组 织 结构 。 作 为 分 布 式 数 据 库 的 一 个 例子 .我 们 可 考虑 由 一 个 
总 部 与 多 个 分 部 所 形成 的 企业 组 织 。 该 企业 需要 维护 每 个 分 部 的 顾客 信息 以 及 企业 总 部 的 管 
理 信息 。 使 用 图 F-1 所 示 的 分 布 式 数据 库 ， 每 个 分 部 均 可 在 本 地 数据 库 中 维护 自己 的 顾客 信 
息 ， 同 时 ， 一 个 分 部 无 需 在 本 地 数据 库 中 存储 其 他 分 部 的 顾客 信息 ， 也 能 实现 其 他 分 部 顾客 
信息 的 访问 。 此 外 ， 公 司 总 部 可 维护 公司 各 分 部 的 管理 信息 ， 分 部 则 可 从 总 部 数据 库 所 在 位 
置 访问 到 部 分 管理 信息 ， 而 男 一 部 分 管理 信息 则 可 复制 到 每 个 分 部 的 数据 库 所 在 位 置 。 





图 F-1 分 布 式 数据 库 系统 示例 


终端 用 户 往 往 并 不 关心 系统 分 布 的 实际 情况 。 换 言 之 ， 用 户 在 使 用 系统 时 ， 将 不 必 
知道 所 访问 的 数据 是 存放 在 本 地 ， 还 是 存放 在 一 个 地 理 位 置 完全 不 同 的 远 端 。 在 DDBS 
中 ,终端 用 户 可 采用 与 使 用 非 分 布 式 数 据 库 相同 的 方式 来 使 用 分 布 式 数据 库 ， 这 一 系统 特 
性 ( 即 不 必 知 道 数据 分 布 的 细 订 ， 其 至 不 必 知 道 数 据 的 分 布 ) 称 为 分 布 透明 性 ( distribution 
transparency ) 。 

在 DDBS 中 ,数据库 中 的 数据 将 分 布 在 大 量 独 立 的 计算 机 中 ， 这 些 计算 机 彼此 间 并 不 
分 享 任意 的 处 理 设备 或 存储 设备 ， 且 每 台 计 算 机 都 拥有 自己 的 DBMS。 这 些 计算 机 通过 网 
络 进行 连接 ， 因 此 ， 它 们 既 可 以 位 于 同一 建筑 物 内 ， 也 可 以 散布 在 不 同 的 地 域 里 。 在 同 构 型 
DDBS ( homogeneous DDBS) 中 ， 所 有 的 计算 机 将 运行 同样 的 DBMS ， 而 在 异 构 型 DDBS 
( heterogeneous DDBS) 中 ,不 同 的 计算 机 将 运行 不 同 的 DBMS (比如 因 近 期 两 公司 并 购 所 
致 )。 例 如 ， 异 构 型 DDBS 中 可 能 存在 一 台 计 算 机 的 DBMS 使 用 的 是 Oracle， 而 其 他 计算 机 
使 用 的 是 PostgreSQL。 

分 布 式 数据 库 具 有 特定 的 性 能 优势 。 分 布 式 数 据 库 允许 用 户 彼此 无 干扰 地 在 同一 时 间 对 
数据 库 的 不 同 部 分 进行 访问 ， 这 将 使 以 下 情况 显著 受益 : 在 整个 DDBS 中 ， 大 部 分 查询 都 
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是 关于 本 地 用 户 对 本 地 数据 的 查询 。 例如， 在 分 部 1 中 ， 大 部 分 数据 查询 都 是 关于 本 地 用 户 
对 分 部 1 站 点 数据 的 查询 ; 在 分 部 2 中 ， 大 部 分 数据 查询 都 是 关于 本 地 用 户 对 分 部 2 站 点 数 
据 的 查询 。 与 面向 单数 据 库 ( 非 分 布 式 数据 库 ) 的 查询 相 比 较 ， 由 储存 在 多 个 位 置 点 的 数据 
库 所 形成 的 分 布 式 数据 库 可 降低 每 台 计 算 机 上 的 查询 量 。 因 而 ， 当 系统 中 存在 大 量 的 本 地 查 
询 时 ，DDBS 可 实现 更 加 快速 的 数据 处 理 。 此 时 ， 最 经 常 访问 的 数据 将 由 每 台 计算 机 进行 本 
地 存储 ， 这 将 有 效 减 少 访问 时 间 。 此 外 ， 利 用 多 于 一 个 位 置 点 的 数据 复制 ， 分 布 式 数据 库 还 
能 提供 增强 的 可 靠 性 及 可 用 性 。 当 从 某 个 位 置 点 的 数据 库 中 访问 数据 出 现 问 题 时 ， 还 可 以 从 
其 他 复制 点 中 访问 数据 。 

注意 ， 与 非 分 布 式 数 据 库 相 比 ， 分 布 式 数 据 库 将 更 加 复杂 。 为 了 完成 查询 任务 ， 分 布 式 
数据 库 需 要 更 多 的 功能 ， 如 对 数据 以 及 所 有 副本 的 位 置 追踪 ， 决 定 哪 个 数据 副本 用 于 查询 ， 
并 确保 更 新 被 应 用 到 数据 的 所 有 副本 之 中 。 同 时 ， 分 布 式 字典 中 有 关 数 据 库 的 所 有 本 地 及 远 
程 数 据 也 必须 进行 维护 。 以 下 是 关于 复杂 性 增加 的 一 个 例子 ， 在 处 理 一 个 跨越 了 整个 分 布 式 
数据 库 的 查询 时 ， 首 先 需 要 决定 该 查询 将 访问 的 数据 的 位 置 ， 以 鉴别 出 查询 中 的 哪些 部 分 需 
要 本 地 数据 ， 哪 些 部 分 需要 远 端 数据 。 知 查询 所 需 的 数据 存放 在 远 端 ， 则 将 此 类 查询 送 至 合 
适 的 远 闪 系 统 运行 ， 而 远 端 查询 结果 一 旦 返回 ， 这 些 结果 还 将 与 本 地 结果 进行 结合 。 

数据 库 分 片 ( database fragmentation) 是 一 种 基于 不 同位 置 点 的 数据 分 布 策略 。 在 分 布 
式 数据 库 中 ， 一 个 完整 的 数据 表 可 以 存放 于 不 同 的 位 置 点 ， 换 言 之 ， 表 的 分 片 可 以 存放 于 不 
同 的 位 置 点 。 数 据 库 分 片 可 以 是 水 平分 片 或 垂直 分 片 。 

在 水 平分 片 (horizontal fragmentation ) 中 ，DDBS 会 将 表 的 记录 子 集 存 于 不 同 的 位 置 点 
中 。 表 中 的 所 有 列 将 存放 在 同一 位 置 点 ， 而 只 有 表 的 记录 子 集 存放 于 不 同 的 位 置 点 。 要 重建 
完整 的 记录 表 ， 需 要 在 所 有 分 片上 执行 联合 操作 。 图 F-2 给 出 了 数据 表 水 平分 片 的 例子 。 


EMPLOYEE (未 分 片 ) 








EmplD 
ora jv la 11io5 


EMPLOYEE (水 平分 片 - 位 置 A) 


ea EmpGender | EmpPhone | EmpBdate 


0001 Joe x234 1/11/1985 


EMPLOYEE (水 平分 片 一 位 置 B) 


EmplD | EmpName | EmpGender Empphone | EmpBdate 


007 ioe IM | fio 


图 F-2 ”水 平分 片 示例 
在 本 例 中 ， 接 下 来 的 查询 将 为 两 个 分 片 (每 片 中 包含 3 个 记录 ) 创建 一 个 联合 操作 并 组 
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建 出 完整 的 数据 表 ( 共 包 含 5 个 记录 ， 因 两 个 分 片 共享 雇员 Joe 这 一 记录 ): 


SELECT * FROM employee location a 
UNION 
SELECT * FROM employee location b; 


DDBS 的 分 布 透明 性 允许 用 户 将 这 一 查询 简化 为 : 
SELECT * FROM employee 


在 垂直 分 片 ( vertical fragmentation) 中 ，DDBS 则 会 将 数据 表 的 列 的 子 集 存 于 不 同 的 位 
置 点 中 。 每 一 位 置 点 中 都 会 出 现 表 的 所 有 记录 ， 只 是 记录 值 并 不 完整 ， 而 仅仅 包含 了 东 些 
列 。 因 每 个 位 置 点 仅 存 储 了 列 的 子 集 ， 因 此 ， 在 每 个 垂直 分 片 中 ， 均 需要 包含 表 的 关键 字 
列 。 采 用 关键 字 作 为 连接 条 件 连接 所 有 分 片 ， 便 可 重建 出 完整 的 数据 表 . 

图 F-3 给 出 了 表 的 垂直 分 片 示例 。 在 该 例 中 ， 以 下 的 查询 将 实现 两 个 分 片 的 连接 并 重建 
出 完整 的 数据 表 : 

SELECT a.empid, a.empname, b.empgender., 

a.empphone, b.empbdate 


FROM employee location a a, employee location bb 
WHERE a.empid = b.empid, 


EMPLOYEE (未 分 片 ) 












EmplD | EmpName | EmpGender | EmpPhone | EmpBdate 


007 Jie IM lr [ioes 
aoz [Sve IF |a6 |azneea | 
003 wy IF 56 |e//e0 
pa |F 07 |aaneri | 
me Mm le7e |561965 | 







EMPLOYEE (垂直 分 片 - 位置 入) 









noo enowome [Emopons 











EMPLOYEE (垂直 分 片 -位 置 B) 








EmplD | EmpGender 


图 F-3 垂直 分 片 示 例 
DDBS 的 分 布 透 明 性 允许 用 户 将 这 一 查询 简化 为 : 
SELECT * FROM employee 


在 同一 个 数据 表 中 ， 我 们 可 以 将 水 平分 片 与 垂直 分 片 结合 使 用 ， 这 一 策略 称 为 混合 分 片 
(mixed fragmentation)。 图 F-4 给 出 了 表 的 混合 分 片 示例 。 
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EMPLOYEE ( 未 分 片 ) 


ee EmpGender | EmpPhone | EmpBdate 
ee 
0003 | Amy F |x456 8/4/1990 


0004 | Pat F x567 3/8/1971 


0005 5/5/1965 


EMPLOYEE (位 置 A) 


EmplD EmpPhone 








0003 |x456 


EMPLOYEE (位 置 B) 








EmpiD | EmpName | EmpPhone 
0001 | x234 


| 


EMPLOYEE (位 置 C) 


0002 一 2/7/1983 


0003 8/4/1990 


18/197 
0005 |M |5/5/1965 


图 F-4 混合 分 片 示 例 
在 本 例 中 ， 以 下 查询 可 重建 出 完整 的 数据 表 : 


SELECT a.empid, a.empname, c.empgender, 
a.empphone, c.empbdate 
FROM employee location a a, employee location cc 
WHERE a.empid = c.empid 
UNION 
SELECT bp.empid, b.empname, c.empgender, 
b.empphone, c.empbdate 
FROM employee location b b, employee location cc ] 
WHERE Db.empid = c.empid; 


DDBS 的 分 布 透明 性 允许 用 户 将 这 一 查询 简化 为 : 
SELECT * FROM employee 


分 布 式 数据 库 的 数据 复制 (data replication) 发 生 在 有 多 个 数据 副本 需要 存储 于 不 同 的 位 
置 点 时 。 大 整个 数据 库 均 在 分 布 式 系统 的 每 个 位 置 点 上 进行 复制 ， 则 称 为 完全 复制 分 布 式 数 
据 库 ( fully replicated distributed database) 。 另 一 类 复制 则 是 仅 对 部 分 数据 实施 多 位 置 点 复 
制 ， 这 类 复制 称 为 部 分 复制 (partial replication ) 

数据 复制 的 主要 优势 是 可 以 加 快 查询 速度 (因为 更 多 数据 可 以 直接 在 本 地 进行 处 理 )， 
并 提高 数据 的 可 用 性 ， 即 便 是 当 DDBS 中 某 台 计算 机 无 法 运行 时 (只 要 在 别 的 计算 机 上 存储 
了 该 计算 机 的 数据 副本 ， 即 可 使 用 数据 )。 虽 然 数 据 复制 可 以 提升 查询 性 能 以 及 数据 的 可 用 
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性 ， 但 同时 也 带 来 了 更 新 操作 的 复制 性 。 当 对 一 个 数据 副本 进行 更 新 时 ， 必 须 采 取 策 略 来 确 
保 所 有 其 他 副本 被 同步 更 新 。 一 种 更 新 策略 是 ， 将 数据 副本 中 的 某 个 副本 指定 为 “可 区 别 的 ” 
副本 ， We 对 于 进行 更 新 的 数据 ， 只 有 当 其 所 有 副本 均 由 同 
步 器 成 功 更 新 以 后 ， 数 据 才 允许 访问 。 另 一 种 更 新 策略 称 为 “法 定数 ”策略 或 “投票 ”策略 ， 
无 需 同步 器 ， 而 只 需要 在 多 数 副 本 得 到 更 ma 数据 便 可 允许 访问 。 

联合 数据 库 ( federated database ) 是 一 类 分 布 式 数据 库 系 统 ， 由 连 入 同一 系统 的 一 批 现 
存 数据 库 所 组 成 。 这 些 现存 的 数据 库 均 保 持 其 自主 性 ， 同 时 允许 相互 合作 与 数据 分 享 ， 以 形 
成 一 个 新 的 数据 库 。 关 于 联合 数据 库 的 一 个 示例 是 图 书馆 联合 数据 库 ， 该 数据 库 由 全 国 各 地 
不 同 大 学 的 图 书馆 数据 库 所 组 成 。 每 个 图 书馆 有 自己 的 数据 库 ， 和 存放 着 该 图 书馆 的 各 种 书目 
信息 。 各 个 图 书馆 联合 起 来 便 形成 一 个 联合 数据 库 ， 用 户 可 以 使 用 联合 数据 库 实现 对 所 有 图 
书馆 的 信息 访问 。 联 合 数 据 库 不 必 提 供 透 明 性 访问 ， 当 访问 整个 系统 时 ， 联 合 数 据 库 需 要 具 
有 全 局 联合 的 视角 ， 因 为 每 个 数据 库 都 有 自己 的 工作 模式 。 


F.1 并 行 数 据 库 


在 并 行 数据 库 (parallel database ) 系统 中 ， 各 个 计算 机 可 以 同时 对 同一 数据 集 的 不 同 部 
分 实施 同一 任务 并 完成 同样 的 操作 。 换 言 之 ， 计 算 机 将 并 行 地 进行 工作 。 现 代 化 的 并 行 数据 
库 采 用 了 大 规模 并 行 处 理 ( massively parallel processing，MPP) 技术 。MPP 是 一 个 行业 术 
语 ， 指 的 是 大 量 独立 工作 的 计算 机 处 理 器 以 并 行 方式 执行 单个 的 程序 。 并 行 计 算 存在 着 多 种 
涤 构 方法 ， 这 些 架构 方法 的 差异 在 于 计算 机 处 理 胡 是 共享 或 是 具有 各 自 的 磁盘 存储 胡 与 内 
存 。 基 于 此 ， 并 行 系统 中 的 处 理 器 可 以 共享 磁盘 存储 器 与 内 存 ， 或 是 具有 各 自 的 内 存 但 共享 
人 厂 盘 存储 器 。 当 并 行 系统 中 的 每 个 处 理 融 都 有 目 己 的 内 存 与 磁盘 存储 器 时 ， 该 系统 称 为 无 共 
享 MPP 架构 (shared-nothing MPP architecture ) 。 

当 需 要 处 理 的 数据 量 很 大 时 ， 数 据 库 操 作 的 并 行 性 能 很 好 地 提升 系统 的 性 能 ， 这 正 是 很 
多 数据 仓库 系统 实施 中 采用 并 行 RDBMS 的 原因 ， 如 Teradata 、Greenplum 。 

在 附录 J 中， 我 们 将 介绍 并 行 计 算 的 使 用 ， 用 以 实现 MapReduce 方法 对 非 结 构 化 数据 
的 处 理 。 并 行 计算 也 常用 于 云 计算 系 统 ( cloud computing system) 中 ,使 用 网 络 实现 数据 存 
储 与 处 理 服 务 的 交付 ， 这 些 服务 由 服务 提供 商 来 进行 引导 。 
F.2 云 计算 

云 系 统 已 经 成 为 了 一 种 计算 模式 以 及 一 种 商业 模式 ， 它 能 为 用 户 按 需 提供 计算 资源 ， 并 
允许 用 户 按 需 增 减 资 源 数 目 。 所 提供 的 计算 资源 包含 计算 机 的 软 硬 件 资源 ， 甚 至 还 可 以 是 某 
个 特定 的 计算 平台 。 采 用 云 技术 可 以 使 组 织 省 去 硬件 成 本 投资 以 及 雇用 职员 等 方面 的 开销 。 

云 的 主要 特征 为 : 按 需 访问 计算 资源 、 按 次 记 费 模式 、 灵 活性 、 虚 拟 性 、 分 布 式 / 高度 
并 行 性 。 

云 可 以 为 消费 者 按 需 提供 资源 。 消 费 者 仅仅 为 所 使 用 的 资源 付费 ， 并 按 使 用 次 数 付 费 。 
因 消 费 者 可 以 按照 所 需 来 申请 资源 ， 因 此 不 必 为 维护 无 用 资源 而 花费 代价 。 例如， 在 消费 者 
市 场 进行 促销 、 销 售 、 庆 典 及 一 些 特定 的 场合 中 ， 数 据 应 用 的 工作 负载 将 会 激增 ， 若 公司 调 
度 可 用 资源 以 应 对 这 一 激增 ， 则 将 是 一 个 错误 的 决策 ， 因 为 这 些 资源 在 其 他 时 候 将 毫 无 用 处 。 

云 服 务 供应 商 所 提供 的 服务 可 以 划分 为 3 类 : 基础 设施 即 服务 、 平 台 即 服务 及 软件 即 
服务 。 
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基础 设施 即 服务 (Infrastructure as a Service，laaS) 提供 基于 网 络 的 硬件 标准 服务 。 消 
费 者 可 以 租用 硬件 资源 ， 如 服务 器 空间 、 网 络 设 备 、 存 储 器 、 处 理 周 期 、 存 储 空间 等 。 

平台 即 服务 (Platform as a Service，PaaS) 提供 消费 者 在 创建 应 用 时 所 需 的 各 种 资源 。 
它 将 软件 层 压 缩 为 一 个 平台 ， 该 平台 集成 了 操作 系统 、 中 间 件 、 应 用 软件 及 开发 环境 。 消 费 
者 可 以 利用 接口 与 平台 实现 互动 ,平台 则 将 根据 消费 者 的 需求 来 实现 目 我 维护 与 裁剪 。 

软件 即 服务 ( Software as a Service，SaaS ) 使 应 用 具有 服务 器 请 求 式 特征 : 应 用 被 放置 
在 服务 器 上 ， 而 消费 者 则 通过 网 络 来 使 用 这 些 应 用 。 一 个 简单 的 示例 是 ， 一 个 运行 在 云 中 的 
软件 可 以 同时 被 多 个 客户 端 使 用 . 

数据 库 即 服务 ( Database as a Service，DaaS) 则 是 SaaS 的 一 个 特例 ， 专 门 用 于 云 中 的 
数据 库 管 理 。 

当 需 要 存储 的 数据 量 急剧 增加 时 ， 云 架构 可 以 解决 大 规模 数据 处 理 所 面 临 的 关键 难题 。 
云 计算 环境 允许 数据 库 基 于 动态 负载 自动 地 进行 增 减 。 云 被 视 为 适宜 分 析 型 数据 管理 应 用 的 
技术 ， 这 些 应 用 将 对 多 个 操作 型 数据 库 中 的 历史 数据 进行 处 理 ， 且 仅 需 少量 的 甚至 无 需 数据 
更 新 。 不 同 于 分 析 型 数据 库 ， 操 作 型 数据 库 需 要 进行 数据 更 新 。 当 存在 数据 更 新 时 ， 维 护 连 
贯 的 数据 值 将 会 是 一 项 复杂 的 工作 ， 尤 其 是 当 数 据 在 较 大 的 地 理 范围 内 进行 广泛 复制 时 ， 维 
护 连 贯 的 数据 值 将 可 能 会 影响 系统 性 能 。 

人 们 用 “灵活 ”一 词 来 描述 云 ， 这 是 由 于 它 可 以 适应 资源 的 需求 增长 与 需求 下 降 。 云 中 
的 虚拟 技术 允许 多 个 用 户 同 时 使 用 同一 设备 。 云 中 的 服务 器 提供 了 多 个 操作 实例 ， 使 得 多 个 
用 户 可 以 在 同一 台 计 算 机 上 使 用 不 同 的 操作 系统 来 运行 一 个 应 用 。 虚 拟 软件 可 以 为 用 户 模拟 
出 多 台 物 理 机 。 例 如 ， 一 个 客户 可 选用 一 个 特定 的 操作 系统 来 运行 其 应 用 。 

云 是 典型 的 分 布 式 结 构 ， 可 包含 多 个 数据 中 心 ， 这些 数 据 中 心 可 以 跨越 广泛 的 地 理 位 
置 。 以 分 布 式 的 方式 解决 问题 是 云 技术 的 优势 所 在 ， 这 相当 于 用 多 台 机 器 以 并 行 方 式 快 速 实 
现 问题 的 处 理 。 云 中 的 服务 器 并 不 一 定 是 昂贵 的 ， 很 多 云 中 包含 的 都 是 名 见 的 计算 机 。 云 中 
任何 组 件 失 将 的 可 能 性 将 被 创建 成 为 云 的 计算 模式 。 处 理 过 程 可 以 复制 ， 从 而 确保 任何 失效 
处 理 都 能 够 快速 地 进行 恢复 。 类 似 地 ， 通 过 在 不 同位 置 点 分 布 式 地 创建 一 定数 量 的 数据 副 
本 ， 可 获得 数据 的 可 靠 性 及 可 用 性 保障 。 

云 中 的 数据 存储 过 程 将 关系 到 特定 的 安全 与 隐私 问题 。 数 据 移出 仓库 并 存放 到 第 三 方 提 
供 商 的 服务 器 中 ， 这 潜在 地 增 大 了 安全 隐患 。 企 业 若 要 在 云 中 进行 数据 存储 ， 则 需要 信任 云 
主机 。 在 云 中 ， 数 据 可 以 被 存储 在 全 球 的 任何 地 方 。 不 同 的 国家 有 不 同 的 法 规 来 对 待 数据 的 
合法 存 取 。 任 一 政府 均 可 以 利用 法 律 方式 强制 访问 存储 在 本 国 的 数据 ， 此 时 的 数据 移交 将 无 
需 通 知 数据 的 持 有 者 。 在 云 系 统 中 ， 关 于 异常 账单 与 拒 付款 账单 的 责任 问题 也 可 能 出 现 。 虽 
然 存 在 这 些 挑战 ， 但 云 计算 依然 表现 出 增长 的 趋势 ， 并 被 世界 范围 内 越 来 越 多 的 公司 与 组 织 
采纳 。 
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数据 挖掘 ( Data mining) 被 广义 地 定义 为 在 大 量 数据 中 发 现 新 奇 而 有 趣 的 模式 的 过 程 。 
数据 挖掘 技术 与 算法 起 源 于 很 多 不 同 的 领域 ， 如 数学 、 统 计 学 、 机 器 学 习 以 及 数据 库 。 虽 然 
在 标准 数据 分 析 (如 回归 分 析 、OLAP) 与 数据 挖掘 之 间 并 没有 明显 的 区 分 ， 但 后 者 常常 包 
含 了 大 量 可 能 的 发 现 ， 且 这 些 发 现 中 仅 有 少量 是 合理 的 。 

这 些 发 现 可 能 令 人 吃惊 ， 前 所 未 知 ， 有 时 候 甚 至 是 反 直 觉 的 。 例 如 ， 在 大 型 超市 链 中 发 
现 畅 销 商品 并 不 被 看 做 数据 挖 气 ， 而 发 现 常 常 一 起 销售 的 商品 则 是 数据 挖 据 的 典范 。 

数据 仓库 是 数据 挖掘 的 重要 数据 源 之 一 。 它 提供 了 高 质量 的 、 完 整 的 、 企 业 范 围 的 数 
据 ， 可 用 于 回答 各 种 问题 ， 并 发 现 令 人 感 兴趣 的 新 商业 模式 。 

一 类 最 典型 而 普遍 的 数据 挖掘 应 用 称 为 预测 分 析 ( predictive analytics)， 它 利用 以 往 的 
数据 来 预测 将 来 的 事件 。 其 示例 包括 : 使 用 过 去 的 信誉 历史 来 判断 新 贷款 人 的 信誉 情况 ; 从 
典型 的 信用 卡 交 易 中 获 得 使 用 模式 ， 并 对 照 有 悖 于 这 些 使 用 模式 的 新 购买 行为 ， 以 标记 出 潜 
在 的 欺骗 行为 ;使 用 遗传 与 环境 信息 来 预测 病人 感染 特定 疾病 的 可 能 。 很 多 技术 可 用 于 构造 
预测 模型 ， 如 分 类 、 聚 类 及 回归 等 - 

有 关 各 种 数据 控 据 方法 的 具体 摘 述 已 经 超出 了 本 书 的 研究 范畴 。 但 是 ， 为 了 能 够 对 数据 
挖掘 相 关机 制 与 应 用 进行 说 明 ， 我 们 将 给 出 一 个 最 为 常用 的 方法 概述 ， 即 关联 规则 挖掘。 


G.1 关联 规则 挖掘 


关联 规则 挖掘 ( association rule mining) 也 称 为 购物 篮 分 析 (market basket analysis)， 是 
从 数据 库 视 角 进 行 数据 控 掘 的 典范 。 该 方法 起 源 于 20 世纪 90 年 代 早 期 的 数据 库 搜索 ， 尤 
其 适用 于 通过 维度 建 模 ( 璋 来 了 星 型 模式 ) 实现 数据 仓库 与 数据 集 市 的 创建 。 关 联 规 则 挖掘 
的 最 简单 定义 是 : 找到 那些 帝 常 可 能 一 起 销售 的 物品 组 合 。 术 语 “ 购 物 篮 分 析 ” 也 是 因 该 类 
挖掘 的 原始 数据 为 超市 结账 台数 据 而 得 名 。 其 目标 则 是 在 所 有 商品 随机 购买 的 情况 下 ， 发 现 
那些 比 我 们 预想 的 更 有 可 能 一 起 购买 的 商品 。 一 些 控 气 结果 并 不 令 人 吃惊 (如 热狗 与 亚 匣 普 
经 常 一 起 销售 ， 合 物 与 牛奶 也 常 一 起 销售 )， 而 引用 在 学 术 文 献 中 的 一 个 难以 预料 的 事实 是 ， 
啤酒 与 尿布 也 常会 一 起 销售 。 这 一 结果 已 经 被 不 同 的 研究 先后 多 次 证 实 。 关 联 规则 挖掘 中 的 
重要 问题 是 发 现 非 显 式 模式 ， 这 些 模式 可 用 于 实现 市 场 销售 额度 的 上 涨 并 增加 利润 。 


G.2 关联 规则 挖掘 实例 


关联 规则 挖掘 揭 示 了 交易 物品 的 相关 性 ， 该 相关 性 采用 以 下 形式 进行 描述 : 
一 个 包含 义 的 交易 很 可 能 也 包含 Y 
记 为 交易 规则 X 一 Y， 其 中 X 与 Y 代表 交易 物品 集 。 利 用 关联 规则 挖掘 从 超市 结账 台 
中 发 现 哪 些 商品 被 放 在 同一 购物 得 中 ， 则 该 关联 可 采用 以 下 规则 形式 来 表示 : 
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购买 X 的 顾客 在 同一 次 购物 活动 中 很 可 能 也 购买 Y 
每 个 关联 规则 具有 两 个 量化 指标 : 支持 度 与 置信 和 度 。 规 则 X 一 的 支持 度 定 义 为 所 有 
包含 了 XX 与 Y 的 交易 数 与 总 交易 数 的 比值 : 
支持 度 = 同时 包含 了 X 与 立 的 交易 数 / 总 的 交易 数 
规则 X 一 Y 的 置信 度 定义 为 所 有 包含 X 与 Y 的 交易 数 与 所 有 包含 X 的 交易 数 的 比值 : 
信 度 = 同时 包含 了 X 与 立 的 交易 数 /包含 了 X 的 交易 数 
从 直 党 上 人 分析， 支持 度 量化 了 规则 的 意义 ， 因 而 我 们 将 对 具有 相对 较 高 文 持 度 的 规则 产 
生 兴 趣 。 置 信和 度 则 量化 了 关联 的 强度 ， 因 此 那些 具有 低 置 信和 度 的 规则 是 训 无 意义 的 ， 即 使 它 
的 支持 度 很 高 。 由 此 可 知 ， 一 个 有 意义 的 规则 是 那些 具有 高 支持 度 与 置信 和 度 (超过 了 特定 的 
临界 值 ) 的 交易 物品 关系 ， 而 临界 值 则 由 分 析 师 来 确定 。 
为 了 说 明 支 持 度 与 置信 和 度 规则 如 何 促进 关联 规则 挖掘 ， 考 虑 以 下 的 简单 实例 : 
在 ZAGI 零售 公司 的 零售 链 中 ， 出 售 了 上 百 种 不 同 的 商品 ， 其 中 包括 商品 A、B、C。 
假设 我 们 正在 寻找 支持 度 大 于 等 于 0.5% 且 信任 度 大 于 等 于 50% 的 关联 规则 。 通 常 ， 这 
些 临 界 值 将 由 分 析 师 来 确定 ， 并 会 在 数据 挖掘 的 后 续 兴 代 中 进行 修正 。 表 G-1 显示 了 所 包含 
的 交易 数 : 


9 物品 A。 
e 物品 B。 
e 物品 C。 
e 物品 A、B。 
e 物品 A、C。 
e 物品 B、C。 
e 物品 A、B、C。 
表 G-1 交易 统计 (单位 : 千 ) 
5 | 1 | 7 | | + | 5 |， | 


交易 总 数 为 500 000 : 10 000 包 含 物品 A ; 7 000 包 含 物品 B; 11 000 包 含 物品 C; 
4 000 包含 物品 A、B， 等 等 。 注 意 ， 包 含 物品 A、B 的 交易 是 包含 物品 A 的 交易 的 子 集 。 

物品 A、 物 品 B 这 一 组 的 支持 度 是 0.8%( 规 则 A 一 B 与 规则 B 一 A 的 支持 度 是 相同 的 ， 
同 为 4/$00=0.8%， 因 为 包含 同 组 物品 的 两 个 规则 的 支持 度 都 是 相同 的 )。 物 品 A 的 交易 数 是 
10 000， 物 品 B 的 交易 数 是 7 000， 因 此 ， 规 则 A 一 B 的 置信 和 度 是 40%， 而 规则 B 一 A 的 
置信 和 度 是 57.14% (A 一 B 的 置信 度 是 4/10=40%，B 一 A 的 置信 和 度 是 4/7=57.14%)。 该 例 中 
所 有 可 能 规则 的 支持 度 及 置信 和 度 见 表 G-2。 

表 G-2 支持 度 及 置信 和 度 值 

规则 置信 度 

A—B 25.00% 

BA 9.00% 

A 一 < 20.00% 

CA 429% 

BC 50.00% 

C—B 10.00% 


及 有 姑 G 才 据 硝 扬 Eb 


表 G-2 所 示 的 12 个 可 能 的 规则 中 ， 仅 仅 以 下 两 个 能 满足 支持 度 大 于 等 于 0.5% 且 置 信 
度 大 于 等 于 50% 的 临界 值 条 件 : 
物品 B 一 物品 A (支持 度 = 0.80%， 置 信和 度 = 57%) 
物品 A 一 物品 C (支持 度 = 1.00%， 置 信和 度 = 50%) 
临界 值 的 设 定 可 以 确保 购物 篮 分 析 师 在 所 有 可 能 的 规则 中 发 现 最 有 意义 的 规则 .一旦 有 
所 发 现 ， 这 些 规 则 便 可 影响 商业 决策 。 例 如 ， 和 零售 商 发 现 有 两 种 商品 特别 容易 一 起 销售 ， 便 
可 以 以 几 种 方式 来 利用 这 一 发 现 。 他 们 可 以 将 两 种 商品 存放 在 一 起 ， 以 方便 顾客 购物 ; 也 可 
以 将 两 种 商品 分 开 存 放 ， 以 使 得 需要 购买 这 两 种 商品 的 顾客 能 看 到 商店 中 的 更 多 商品 ; 还 
可 以 在 一 种 商品 上 实施 促销 活动 但 提高 另 一 种 商品 的 价格 。 在 零售 商 对 自身 数据 进行 挖掘 之 
前 ， 这 些 改变 了 现 有 商业 实践 活动 的 方式 还 从 未 进入 过 人 们 的 视野 。 [345] 
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H.1 标记 语言 

标记 语言 (markup language) 是 指 在 文档 中 进行 文本 注释 ( 即 “ 标 记 ”) 的 语言 ， 这 些 
注释 会 将 各 种 功能 语 加 到 文本 中 。 基于 标记 语言 的 类 型 ， 注 释 可 用 于 各 种 用 途 ， 如 指明 文档 
中 已 经 注释 的 文本 如 何 生成 格式 、 如 何 显 示 、 如 何 结构 化 等 。 

超 文本 标记 语言 ( hypertext markup language，HTML ) 是 标记 语言 的 一 种 。HTML 提供 
了 各 种 功能 ， 以 描述 如 何 显 示 Web 页 面 信息 。HTML 的 目的 就 是 帮助 完成 数据 的 显示 。 

请 看 图 H-1 中 的 HTML 代码 ， 这 些 代码 存放 在 标题 为 HTMLExample.html 的 文件 中 。 
代码 中 包含 了 由 HTML 标签 进行 注释 的 文本 信息 。 例 如 ， 由 起 始 标签 <p> 与 结束 标签 </p> 
所 注释 的 文本 是 被 标记 为 分 段 显示 的 文本 ， 而 由 起 始 标签 <b> 与 结束 标签 </b> 所 注释 的 文 
本 慎 补 标记 为 粗 体 显 示 的 文本 ， 

<html> 
<head> 


<title> Web Page EXAMPLE</title> 
</head> 


<body> 


<p>This is an example of a HTML Web page.</p> 
<p><b>This part is in bold font.</b></p> 
<p><i>This part is in italic font.</i></p> 
</body> 
</html> 





图 H-1 HTML 代码 示例 


HTMLExample.html 包含 耳 图 H-1 中 的 PETER Pr 
HTML 代码 ， 它 可 以 由 Web 浏览 器 恢复 为 “民营 .ripanpehm 
图 H-2 中 显示 的 Web 页 面 。 一 到 Eee 


H 2 XML This is an example of a HTML web page. 
This part is in bold font- 

扩展 的 标记 语言 (extensible markup | yy parris mitatic fomr 
language，XML) 是 在 文档 中 增加 了 结构 与 
语义 的 标记 语言 。XML 通常 的 用 法 是 帮助 
数据 实现 从 数据 库 到 电子 商务 应 用 的 转换 。 图 H-2 ”Web 页面 示例 
此 时 ， 数 据 首 先 从 数据 库 中 提取 出 来 ， 格 式 
化 为 XML 文档 ， 再 进行 转换 并 显示 在 使 用 HTML 的 Web 页 面 上 上。 以 下 是 关于 XML 的 最 
基本 性 能 的 简要 概述 。 

XML 文档 的 基础 构件 称 为 “元 素 ”。XML 文档 由 “ 根 元 素 ” 构 成 ， 根 元 素 中 包含 了 文 
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档 的 其 他 所 有 元 素 。XML 文档 中 的 元 素 由 起 始 标签 < 元 素 名 > 与 结束 标签 </ 元 素 名 > 进行 
标识 -“ 单 元 素 ” 即 为 真实 的 数据 值 (如 整数 值 或 字符 ), “复合 元 素 ” 则 是 指 包 含 了 其 他 元 


请 看 图 H-3 中 的 XML 代码 。 代 码 第 一 行 是 XML 声明， 剩余 部 分 则 是 HAFH 数据 库 
( 曾 用 于 第 3 章 和 第 5 章 ) 的 一 个 子 集 ， 描 述 了 大 楼 、 公 让 与 企业 客户 。 


<?Xml] version="1.0" ?> 
<HAFH> 
<Building> 
<BuildingID>Bl</BuildingID> 
<BNoOfFloors>S</BNoOfFloors> 
<Apartment> 
<AptNo>21</AptNO> 
<ANOOf Bedrooms>1l</ANoOfBedrooms> 
</Apartment> 
<Apartment> 
<AptNo>41</AptNo> 
<ANoOfBedrooms>1</ANoOfBedrooms> 
<CorporateClient> 
<CCIDSCLLlLe/CCIDS 
<CCName>BlingNotes</CCName> 
</CorporateClient> 
</AMApartment> 
</Building> 
<Building> 
<BuildingID>B2</BuildingID> 
<BNoOf Floors>6</BNoOfFloors> 





图 H-3 XML 代码 示例 


在 这 个 简单 实例 中 ， 树 根 是 包含 了 大 楼 Building 元 素 的 HAFH 复合 元 素 。 每 个 Building 
元 素 也 是 一 个 复合 元 素 ， 包 含 了 BuildingID 及 BNoOfFloors 两 个 单元 素 ， 以 及 一 个 或 多 个 
Apartment 元 素 。 每 个 Apartment 都 是 一 个 复合 元 素 ， 包 含 AptNo 及 ANoOfBedrooms 两 个 单 
元 素 。 此 外 ， 一 些 Apartment 中 还 包含 了 CorporateClient 元 素 。 而 每 个 CorporateClient 元 素 也 
是 一 个 复合 元 素 ， 并 包含 CCID 及 CCName 两 个 单元 素 。 

在 XML 中 ， 所 有 的 元 素 都 是 分 层 组 织 的 。 术 语 “ 父 亲 元 素 ”"、“ 和 孩子 元 素 ”“ 孙 子 元 
系 ” 及 “ 兄 第 元 素 ” 用 于 撒 述 元 素 间 的 分 层 关系 。 例 如 ，Bnuilding 是 孩子 元 素 BuildingID、 
BNoOfFloors 及 Apartment 的 父亲 元 率 ， 而 Apartment 是 孩子 元 素 AptNo、ANoOfBedrooms 
及 CorporateClient 的 父亲 元 素 。 同 时 ，BuildingID、BNoOfFloors 、Apartment、AptNo、 
ANoOfBedrooms、CorporateClient、CCID 及 CCName 都 是 Building 的 孙子 元 素 。 兄 弟 元 素 
则 是 指 共享 同 个 父亲 元 素 的 元 素 。 例 如 ，BuildingID 和 BNoOfFloors 是 兄弟 元 素 。 

因为 XML 的 数据 是 分 层 的 ， 所 以 XML 的 数据 模式 可 描述 为 树 。 图 H-4 中 给 出 了 图 
H-3 的 HAFHInfo.xmi 文档 的 数据 模式 。 

正如 图 H-3 所 示 ， 数 据 库 中 所 提取 的 数据 可 以 由 XML 文档 来 抓 取 。 此 外 ,XML 文档 自 
身 也 可 被 存储 为 数据 库 。 将 XML 存 人 数据 库 可 采用 多 种 不 同 的 方法 来 实现 。XML 文档 可 
以 文本 方式 存 人 数据 库 系 统 中 ， 此 时 需要 DBMS 具有 文档 处 理 模 块 。 此 外 ， 如 果 所 有 的 文 
档 均 具有 相同 的 结构 ， 则 XML 文档 内 容 可 存储 为 数据 元 素 。 此 时 ，XML 模式 将 必然 会 映 


蝗 XML 声明 用 于 确定 该 文档 为 XML 文档 ， 同 时 指定 XML 的 标准 版 本 (本 例 中 为 1.0 版 ). 
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射 到 数据 库 模 式 中 。 也 可 以 从 一 个 现 有 的 关系 数据 库 中 创建 出 XML 文档 ， 再 将 其 存放 回 数 
据 库 中 。 “原生 XML 数据 库 ” 是 一 类 特殊 的 DBMS， 它 被 专门 设计 用 于 存储 和 处 理 XML 数 
据 。 原 生 XML 数据 库 具有 一 个 XML 文档 作为 基本 的 存储 单元 。 很 多 DBMS 中 内 置 有 相关 
功能 ， 可 使 用 典型 的 关系 模式 将 XML 元 素 中 的 数据 呈现 为 数据 表 的 行 。 


BuildingID BNoOfFloors 
AptNo ANoOfBedrooms CorporateClient 


图 H-4 图 H-3 的 XML 数据 模式 


H.3 XML 查询 


XML 通常 用 于 数据 库 与 应 用 之 则 的 数据 交换 。 此 时 ，XML 文档 中 可 以 包含 相当 复杂 的 元 
素 结构 ， 因 此 有 必要 采用 某 种 机 制 来 遍历 XML 元 素 的 树 结构 ， 并 对 其 中 包含 的 信息 进行 提取 . 

XML 路 径 语言 (XML Path Language，XPath) 是 利用 XML 文档 的 树 状 表达 式 进 行 工 作 
的 一 种 简单 语言 ， 该 语言 允许 用 户 遍 历 树 。XPath 表达 式 将 从 树 中 返回 一 个 元 素 节点 集 ， 这 
些 元 素 节点 能 满足 表达 式 所 指定 的 模式 。 分 隔 符 “/ ”与 “/” 用 于 指定 一 个 标签 的 孩子 及 
孙子 ， 其 摘 述 如 下 。 

/: 该 标签 必须 作为 先前 父亲 标签 的 直接 后 和 痪 ( 即 孩 子 ) 而 出 现 。 

//: 该 标签 可 以 作为 先前 标签 的 任意 级 别 孙 子 标签 而 出 现 。 

例如 ， 要 访问 HAFH 数据 库 中 的 building， 则 可 给 出 下 述 表达 : 

/HAFH/building 

另 一 个 例子 ， 考 虑 获取 bedroom 大 于 1 的 公寓 数 的 语句 : 

//apartment [ANoOfBedrooms > 1] /APENo 

XQuery 是 一 种 更 加 广泛 地 用 于 XML 文档 查询 的 语言 。XQuery 提供 了 对 XML 文档 
的 查询 功能 ， 这 就 像 SQL 提供 了 对 关系 数据 库 的 查询 功能 一 样 。XQuery 中 使 用 XPath 
表达 式 ， 该 表达 式 是 一 个 “FLWOR” (For Let Where Order by Return) 表达 式 ， 类 似 于 
SQL 中 的 SELECT…FROM.…WHERE 表达 式 。 其 中 ，For 语 句 人 负责 从 XML 文档 中 提取 
元 素 ; Let 语句 允许 创建 变量 并 为 变量 分 配 值 ; Where 语句 基于 逻辑 表达 式 来 完成 元 素 的 筛 
选 ; Order by 语句 将 对 结果 进行 排序 ; Return 语句 用 于 指定 返回 结果 。 在 FLWOR 表达 式 中 ， 
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For 及 Let 语句 可 以 以 任意 次 序 出 现任 意 次 ; Let、Where、Order by 语句 是 可 选 的 ， 但 For 与 
Return 语句 则 是 必需 的 。 为 了 对 表达 式 进 行 说 明 ， 我 们 考虑 以 下 例子 ， 并 假设 图 H-3 所 显示 
的 XML 文档 被 存 为 名 为 是 hafhinfo.xml 的 文档 ， 并 存储 在 网 络 服务 句 www.hafhrealty.com 中 : 


FOR Sx in doc(www.hafhrealty.com/hafhinfo.xml) 
RETURN <res> S$x/CorpClient/ccname, $x/CorpClient/ccid </res> 


该 XQuery 查询 用 于 请 求 企 业 客户 的 姓名 及 ID 列表 。 下 面 考虑 其 扩展 示例 : 请 求 企业 
客户 的 姓名 及 ID 列表 ， 要 求 这 些 客户 所 租赁 的 公寓 的 bedroom 不 止 一 间 ， 并 按照 企业 客户 
的 ID 进行 排序 : 


FOR S$x in doc{(www.hafh.com/hafhinfo.xml) 

LET $minbedroms := 2 

WHERE S$x/ANoOfBedrooms >= Sminbedroms 

ORDER BY $x/CorpClient/ccid 

RETURN <res> S$x/CorpClient/ccname, $x/CorpClient/ccid </res> 


除了 一 些 用 于 提取 XML 文档 中 的 特定 元 素 与 数据 的 有 效 机 制 外 ， 我 们 还 需要 一 些 有 效 
的 方式 ， 可 基于 数据 库 的 数据 查询 自动 地 构造 出 XML 文档 。 当 今 很 多 主流 的 数据 库 管 理 
系统 均 已 利用 SQL/XML 实现 了 XML 功能 的 合并 ， 这 是 SQL 的 扩展 应 用 ， 指 定 了 SQL 与 
XML 的 结合 使 用 。 以 下 是 用 于 说 明 SQL/XML 特定 功能 的 一 个 简单 实例 。 

考虑 SQL Query A， 从 HAFH 数据 库 的 INSPECTOR 表 中 进行 数据 检索 : 

SQL Query A 


SELECT i.,insid, i.insname 
FROM inspector i; 


该 查询 结果 的 输出 如 下 : 
SQL Query A 的 结果 


insid insname 





SQL/XML QueryAX 利用 SQL/XML 函数 xmlelement() 创建 了 一 个 XML 元 素 。 
SQL/XML Query AX 


SELECT xmlelement (name "inspector", 
xmlelement (name "insid", i.insid), 
xmlelement (name ‘“"insname", 1i.insname)) 

FROM inspector i; 


SQL/XML QueryAX 的 结果 输出 如 下 : 
SQL/XML Query AX 的 结果 


<inspector> 
<insid>Ill</insid> 
<insname>Jane</insname> 

</inspector> 


<inspector> 
<insid>I22</insid> 
<insname>Niko</insname> 

</inspector> 


<inspector> 
<insid>I33</insid> 
<insname>Mick</insname> 

</inspector> 
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SQL Query A 将 从 数据 表 INSPECTOR 中 生成 数据 的 行 与 列 ， 而 SQL/XML Query AX 
则 是 基于 数据 表 INSPECTOR 中 的 数据 生成 XML 元 素 。 

XML 的 一 个 典型 应 用 是 基于 Web 页 面 来 呈现 数据 库 中 的 信息 。 将 数据 库 检索 得 到 的 
XML 元 素 呈 现在 Web 页 面 的 方式 之 一 是 使 用 可 扩展 样式 语言 (XSL )。 

考虑 图 H-5 中 的 XML 文件 inspectors.xml。 代 码 的 第 一 行 是 XML 声明 。 第 二 行 则 是 指 
定 XSL 文件 insptoweb1.xsl (图 H-6 中 所 示 ) 用 于 描述 文件 inspectors.xml 如 何 显 示 为 Web 
页 面 。XML 文件 inspectors.xml 的 剩余 代码 则 包含 了 Query AX 从 表 INSPECTOR 中 检索 到 
的 相关 内 容 。 


<?XMml] version='"1.0" ?> 
<?xml-stylesheet type='"text/xsl" href="insptowebl.xsl"?> 


<buildinginspectors> 
<inspector> 
<insicd>I11</insid> 
<insname>Jane</insname> 
</inspector> 
<inspector> 
<insid>I22</insid> 
<insname>Niko</insname> 
</inspector> 
<inspector> 
<insid>I33</insid> 
<insname>Mick</insname> 
</inspector> 
</buildinginspectors> 





图 H-5 XML 文件 inspectors.xml (将 显示 为 Web 页 面 ) 


<?Xm]L version="1.0" ?> 

<xsl:stylesheet version="1 .0" 
xmlns:xsl="http://www.w3.0org/1999/XSL/Transform"> 
<xsl:template match="/"> 


<html> 
<head> 
<title> Web page XML EXAMPLEli</title> 
</head> 
<body> 


<b>Building Inspectors</b> 
<xsl:for-each select="buildinginspectors/inspector'"> 


<p> --- </Pp> 
<p>Inspector ID: <xSsl:value-of select="ingsid'" /></p> 
<p>Inspector Name: <xesl:;valuae-of gelect="insname' /></P> 
</xsl:for-each> 
</body> 
</html> 


</xsl:template> 
</xsl:stylesheet> 





图 H-6 XSL 文件 insptowebl.xsl (用 于 描述 inspectors.xml 如 何 显 示 为 Web 页 面 ) 


图 H-6 中 的 XSL 文件 insptoweb1.xsl 描述 了 文件 inspectors.xml 如 何 显示 为 Web 页 面 。 

图 H-6 的 前 四 行 与 后 两 行 代码 包含 了 XSL 文档 中 一 些 必要 的 实用 信息 。 紧 跟 在 前 四 行 
代码 之 后 的 标签 <html>、<title>、<body>、<b> 及 <p> 是 标准 的 HTML 标签 ， 正 如 图 H-1 与 
H-2 示例 中 说 明 的 那样 。 中 间 部 分 显示 为 黑体 的 代码 ， 将 运用 XSL 元 素 <xsl:for-each> (在 参 
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考 该 XSL 文件 的 XML 文件 中 ) 来 选择 每 个 由 XPath 表达 式 创 建 的 检查 器 inspector 所 识别 出 
的 XML 树 元 素 。 当 XML 文件 inspectors.xml 在 Web 浏览 器 中 打开 时 ， 它 将 显示 为 图 H-7。 


Web page XML EXAMPLE1 Windows Internet Explore!l 


Inspector Name Jane 


Inspector ID: 133 
Inspector Name: Mick 





图 H-7 XML 文件 inspectors.xml(Web 页 面 显示 结果 ) 


为 了 说 明 同 样 的 XML 元 素 如 何 生 成 不 同 的 格式 ， 图 H-8 给 出 的 文件 insptoweb2.xsl 为 
文件 inspectors.xml 的 XSL 代码 的 男 一 版 本 。 该 代码 中 使 用 HTML 标签 引入 了 着 色 与 表格 
格式 。 例 如 ， 标 签 <tr bgcolor="#808080"> 用 于 指定 表 头 的 背景 色 为 灰色 。 


<?3xml version="1.0" ?> 

<xsl:stylesheet version="1.0" 
xmlns:xsl="http://www.w3.o0rg/1999/XSL/Transform'"> 
<xsl:template match="/"> 


<html> 
<head> 
<title> Web page XML EXAMPLE2</title> 
</head> 
<body> 

<b>Building Inspectors</b> 

<table border="1"> 

<tr bgcolor="#BBFFFF"> 
<th>Inspector ID</th> 


<th>Inspector Name</th> 
wi ELS 
<xgl:;for-aach select="buildinginspectors/inspector"> 


二 
<td><xsl:value-of select="insid" /></td> 
<td><xsl:valua-of geleaect="insname" /></td> 
</tr> 
</xsl:for-each> 
</table> 
</body> 
</html> 


</xsl:template> 
</xsl:stylesheet> 





图 H-8 XSL 文件 insptoweb2.xsl( 用 于 描述 inspectors.xml 如 何 显 示 为 Web 页 面 ) 


了 33 内 有 素 


假设 XML 文件 inspectors.xml 将 参考 XSL 文件 insptoweb2.xsl 而 不 是 insptoweb1.xsl， 
351| ”那么 , XML 文件 inspectors.xml 在 使 用 Web 浏览 器 打开 时 ， 将 显示 为 图 H-9 中 的 Web 页 面 。 


" Windows Internet Exvlorerl 





图 H-9 XML 文件 inspectors.xml (Web 页面 另 一 显示 结果 ) 


由 前 所 述 ， 数 据 库 中 所 提 到 的 利用 XML 标签 进行 注释 的 XML 文档 内 容 ， 可 以 转换 为 
不 同 的 结果 ， 并 以 不 同 的 方式 进行 排列 、 格 式 设置 和 显示 。 
本 附录 对 一 些 最 基本 的 XML 概念 进行 了 简要 的 说 明 ， 着 重 于 对 数据 库 相 关 的 XML 功 


352| 能 的 介绍 。 








附录 工 


Database Systems: 1ntroducuon to Databases and Data 人 Warehouses 


NoSQL 数据 库 


作为 一 个 广义 的 术语 ，NoSQL 数据 库 (NoSQL database) 是 一 种 不 基于 关系 模型 日 不 
使 用 SQL 作为 查询 语言 的 数据 库 。 除 不 基于 RDBMS 技术 外 ，NoSQL 数据 库 的 一 个 主要 的 
区 别 性 特征 是 它 的 灵活 性 以 及 可 扩展 的 数据 模型 。 在 关系 数据 库 中 ， 数 据 库 模 式 会 预先 捕捉 
数据 库 中 元 素 的 语义 。 而 在 NoSQL 数据 库 中 ， 数 据 则 不 必 存 储 在 由 一 个 已 经 组 建 的 数据 库 
模式 来 描述 的 结构 中 。 例 如， 在 很 多 NoSQL 数据 库 中 ， 数 据 被 组 织 成 简单 的 码 值 对 。 在 一 
个 码 值 对 中 ， 数 据 库 中 所 存储 的 数据 实例 则 是 一 个 通过 给 定 码 便 可 进行 检索 的 数值 ， 该 数值 
可 以 是 简单 结构 (如 一 个 单词 或 数字 )， 也 可 以 是 具有 自身 语义 的 复杂 结构 。 这 些 值 将 由 数 
据 库 之 外 的 应 用 进行 处 理 ， 而 并 不 属于 数据 库 系 统 本 刁 。 

我 们 将 使 用 NoSQL 数据 库 中 最 著名 的 例子 MongoDB 一 一 一 个 商务 酒店 相关 的 数据 
库 ， 作 为 一 个 简单 实例 对 NoSQL 的 数据 模型 、 查 询 语 言及 扩展 性 做 出 说 明 . 


.1 NoSQL 数据 库 实例 : MongoDB 


MongoDB 是 一 个 所 谓 的 面 问 文档 的 NoSQL 数据 库 ， 用 于 实现 文档 资料 的 收集 。 术 语 
收集 相当 于 RDBMS 中 表 的 概念 ， 而 文档 则 相当 于 RDBMS 中 行 的 概念 。 收 集 可 以 在 运行 
时 创建 ， 任 何 特定 收集 采用 的 文档 结构 并 不 要 求 相 同 ， 虽 然 在 很 多 情况 下 ， 这 些 结 构 是 相 
似 的 。 

考虑 以 下 这 个 关于 在 线 收 集 出 租房 信息 (如 旅店 、 汽 车 旅馆 、 私 人 出 租房 的 床位 、 早 
矢 、 房 间 ， 以 及 露营 地 等 ) 的 公司 实例 。 数 据 将 在 公司 的 Web 站 点 进行 收集 并 显示 ， 包 括 
各 种 租房 信息 ， 如 比率 、 房 屋 类 型 、 舒 适度 等 。 要 为 这 些 不 同类 型 的 出 租房 设计 一 个 统一 的 
关系 模式 是 行 不 通 的 ， 但 我 们 可 以 做 一 些 有 意义 的 模拟 研究 ， 并 产生 一 种 可 随 着 时 间 而 进化 
的 模式 。 

在 MongoDB 中 ， 这 种 旅馆 文档 的 收集 可 以 渐进 地 进行 创建 ， 该 创建 过 程 不 必定 义 任何 
模式 ， 因 为 此 时 本 就 没有 一 个 通用 的 模式 。 

例如 ， 文 档 中 可 涵盖 旅馆 的 最 基本 信息 ， 如 名 字 、 地 址 、 数 字 比 率 。 以 下 语句 实现 了 三 
个 文档 的 创建 并 存 于 数据 库 中 : 


hi = {name: "Metro Blu"，address: "Chicago，IL"，rating: 3.5} 

db .hotels.savel(hl) 

h2 = {name: “Experiential”, address: "New York，NY"，rating: 4} 
db.hotels.save (h2) 

h3 = {name: “Zazu Hotel”, address: "San Francisco, CA"”, rating: 4.5} 
db.hotels.save (h3) 


此 时 ,数据库 中 包含 了 一 个 名 为 hotels 的 收集 ， 该 收集 中 包含 三 个 文档 。 利 用 以 下 查询 ， 所 
有 的 文档 都 可 以 在 数据 库 中 找到 (等 价 于 SQL 中 的 “SELECT” 语 句 ): 





db .hotels.ftind() 
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注意 ，hotels 收集 ,或 该 收集 中 的 文档 模式 不 需要 进行 声明 或 定义 。 硅 想 要 增加 一 个 不 
带 比率 的 新 旅馆 ， 则 可 用 以 下 语句 创建 出 一 个 不 带 比 率 信息 的 新 文档 : 


h4 = {name: "Solace”, address: "Los Angeles, CA"} 
db.hotels.save (h4) 


所 有 在 加 利 福 尼 亚 的 旅馆 都 可 以 用 以 下 查询 找到 : 

db .hotels.find( { address : { Sregex : "CR” } } ) 
该 查询 使 用 了 一 个 规范 的 表达 式 来 查找 地 址 中 包含 “CA” 串 的 所 有 文档 (类 似 于 SQL 中 的 
查询 “SELECT * FROM Hotels WHERE address LIKE“%CA9% ”)。 

若 公司 决定 为 一 些 旅馆 增加 额外 信息 ， 则 以 下 更 新 便 可 应 用 于 每 个 hotel 文档 : 


db ,hotels.update( { name;"“Zazu Hotel” }, { S$set : {wifi: "free”} } ) 
db.hotels.update{( { name:"Zazu Hote]l” }, { $set : {parking: 45} } ) 


这 些 语句 将 为 Zazu Hotel 条 目 增 加 一 些 新 的 特征 ， 表 明了 Wi-Fi (免费 ) 的 可 用 性 与 停 
车 价格 ($45 )。 此 时 我 们 将 不 必 再 转换 模式 并 将 数据 迁 人 新 转换 的 模式 ， 这 些 只 是 关系 数据 
库 中 的 过 程 。 

当然 ， 获 取 这 些 灵活 性 所 带 来 的 代价 则 是 有 限 的 查询 能 力 ， 尤 其 是 文档 的 连接 操作 并 没 
有 被 MongoDB 直接 地 进行 支持 ， 因 而 ， 开 发 人 员 必 须 使 用 常规 的 编程 语言 (在 MongoDB 
中 为 JavaScript) 来 实现 这 些 性 能 。 其 实现 过 程 涵盖 了 在 需要 进行 连接 的 收集 上 进行 散 套 循 
环 的 过 程 。 任 何 性 能 优化 ， 例 如 索引 的 使 用 、 对 每 个 收集 中 的 文档 的 物理 布局 的 利用 ， 都 必 
须 由 开发 人 员 进 行 处 理 。 相 比 于 SQL 中 两 个 表 的 连接 查询 JOIN 的 易 操 作 性 ， 上 述 过 程 给 开 
发 人 员 带 来 了 一 定 的 负担 。 


1.2 NoSQL 数据 库 与 关系 数据 库 


NoSQL 数据 库 与 关系 数据 库 在 很 多 特征 上 均 存 在 差异 ， 此 处 我 们 主要 总 结 一 些 最 基本 
的 差异 。 

NoSQL 数据 库 具 有 不 固定 的 模式 。 正 如 上 述 例 子 中 所 展示 的 那样 ， 它 提供 了 比 关 系数 
据 库 更 大 的 灵活 性 ， wa 

NoSQL 的 男 一 个 普遍 特征 是 分 布 式 与 “水 平 扩 展 ”。NoSQL 数据 库 是 典型 的 分 布 式 数 
据 存 储 ， es (MongoDB 的 名 字 就 来 自 于 术语 “humongous” (巨大 的 ))。 
NoSQL 数据 库 可 以 运行 在 大 量 相 对 廉价 (或 日 用 型 ) 的 服务 器 上 ， 它 们 的 性 能 以 及 处 理 大 
数据 的 能 力 可 以 通过 按 需 增加 更 多 的 日 用 服务 器 来 进行 提升 。 这 一 特征 称 为 水 平 扩展 ， 是 
相对 于 中 心 型 关系 数据 库 的 垂直 扩展 而 言 的 。 垂 直 扩 展 通过 增加 中 心服 务 器 的 处 理性 能 来 提 
升 对 大 数据 的 处 理 能 力 (不 过 关系 数据 库 也 能 够 配置 为 分 布 式 与 并 行 计 算 ， 如 附录 下 所 述 )。 
NoSQL 数据 库 不 能 直接 使 用 所 有 数据 库 操作 (可 参考 上 述 例 子 中 关于 NoSQL 缺少 JOIN 操 
作 的 讨论 )， 但 还 是 存在 一 类 相对 简单 的 数据 库 任务 适 于 利用 NoSQL 进行 处 理 (例如 ， 对 大 
量 简单 文 本 文件 的 存储 与 检索 ， 如 微 博 )。 对 于 这 些 任务 ， 利 用 NoSQL 数据 库 的 水 平 扩 展 来 
分 散 数 据 与 处 理 问 题 ， 比 使 用 关系 数据 库 更 加 简洁 并 且 更 能 胜任 处 理 任 务 。 

NoSQL 数据 库 与 关系 数据 库 的 另 一 点 不 同 在 于 其 处 理 数据 库 事务 的 方式 。 关 系数 据 库 
中 的 RDBMS 将 确保 数据 库 事务 的 ACID 特性 。 首 字母 缩写 ACID 代表 原子 性 、 一 致 性 、 隔 
离 性 、 持 和 久 性 。 事 务 的 原子 性 可 以 确保 数据 库 事务 或 者 全 部 执行 ， 或 者 根本 不 执行 。 例 如 ， 
一 个 从 账户 A 至 账户 B 的 银行 转账 事务 ， 将 包含 从 账户 A 中 提 款 ， 并 在 账户 B 中 存 人 ， 则 
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以 上 过 程 或 者 全 部 执行 ， 或 者 全 不 执行 。 一 致 性 用 于 确保 每 个 事务 都 必须 使 数据 库 处 于 合法 
状态 ， 所 有 的 约束 、 商 业 规则 等 都 必须 遵从 一 致 性 规定 。 隔 离 性 用 于 确保 每 个 事务 不 会 被 其 
他 事务 所 干扰 。 持 和 久 性 用 于 确保 事务 对 数据 库 的 作用 是 持久 的 。 另 一 方面 ，NoSQL 数据 库 
事务 则 通常 表现 出 BASE 特性 (BASE 代表 基本 有 效 的 软 状态 最 终 一 致 性 ) 而 不 是 ACID 特 
性 。 在 这 种 NoSQL 数据 库 中 ， 添 加 与 修改 操作 虽 不 会 立即 对 用 户 生 效 ， 但 最 终 都 可 以 正确 
地 反映 在 系统 中 。 不 依附 于 ACID 特性 可 确保 更 好 的 简洁 性 与 更 低 代 价 的 可 扩展 性 。 

ACID 特性 对 于 很 多 企业 数据 库 而 言 通常 是 十 分 重要 的 ， 比 如 金融 、 计 费 以 及 供应 链 数 
据 库 ， 因 为 它们 具有 相同 的 准确 性 要 求 ， 以 及 正确 指导 商业 行为 所 必需 的 时 间 线 。 但 是 ， 在 
一 些 其 他 场景 中 ， 比 如 使 用 Web 数据 库 来 处 理 用 户 邮 件 及 微 博 时 ，BASE 特性 就 已 经 足够 
用 了 :例如 ， 当 一 个 挑剔 的 客户 没有 立即 收 到 转账 结果 时 ， 这 可 能 会 导致 一 个 严重 的 商业 后 
果 ; 而 男 一 方面 ， 为 最 近 所 提交 的 微 博 显示 在 系统 上 市 进行 短暂 的 等 待 ， 则 并 不 会 带 来 极其 
严重 的 后 果 。 

关系 数据 库 与 NoSQL 数据 库 还 有 一 点 不 同 在 于 ， 关 系数 据 库 中 采用 SQL 作为 RDBMS 
的 标准 语言 ， 而 在 NoSQL 数据 库 所 使 用 的 各 种 语言 与 方法 中 ， 则 不 存在 标准 与 统一 的 
形式 。 

当前 公司 的 状况 是 ， 用 RDBMS 实现 的 关系 数据 库 应 用 于 绝 大 多 数 的 商业 场景 。 但 是 ， 
NoSQL 数据 库 为 某 些 环境 提供 了 有 了 吸引 力 的 且 有 效 的 可 选 方案 ， 正 如 在 以 上 示例 和 讨论 中 
所 展示 的 一 样 。 


1334 


附录 J | 


Database Systems: Introduction to Databases and Data Warehouses 


大 数 据 





由 商业 机 构 、 科 研 单位 、 政 府 及 其 他 组 织 所 产生 的 数据 量 正 以 不 断 增 长 的 速率 持续 上 
涨 。 这 一 增长 速率 已 经 随 着 各 种 传感器 及 智能 设备 的 更 新 换代 而 显著 升 高 。 这 些 设 备 产 生 大 
量 数据 的 例子 包括 : 

e 智能 手机 每 隔 几 秒 钟 就 会 广播 它们 的 位 置 : 

e 汽车 芯片 每 秒 钟 将 要 完成 数 以 千 计 的 诊断 测试 。 

e 摄像 机 将 对 公共 及 私人 场所 进行 持续 的 记录 。 

e 可 发 送 无 线 信 号 (这些 信号 在 贴 有 RFID 标签 的 各 个 购物 车 站 点 被 读 取 ) 的 无 线 射 频 

识别 (RFID) 标签 将 伴随 在 厂商 及 顾客 所 形成 的 供应 链 中 。 

大 数据 (big data) 是 一 个 广义 的 术语 ， 指 的 是 大 量 不 同 种 类 且 快 速 增长 的 数据 ， 这 些 
数据 无 法 正式 地 进行 建 模 。 大 数据 是 非 结 构 化 的 ” ， 正 因 如 此 ， 它 们 不 能 直接 组 织 成 由 行 和 
列 构成 的 表 。 大 数据 是 特征 化 的 ， 因 为 它 不 仅 缺 乏 结 构 且 尺寸 巨大 ， 同 时 数据 本 身 也 是 异 质 
的 。 在 一 个 典型 的 大 公司 里 ， 大 数据 可 以 包含 从 智能 设备 、 网 络 日 志 、 公 共 记 录 、 社 会 媒体 
及 无 数 从 其 他 数据 出 口 所 获得 的 各 种 数据 。 

企业 已 经 认识 到 数据 的 价值 ， 并 建立 了 操作 数据 库 和 数据 仓库 来 处 理 正式 建 模 方式 下 可 
进行 操作 与 解析 的 数据 。 如今 ， 企 业 也 正在 考虑 如 何 利用 这 些 无 结构 性 的 数据 ， 它 们 在 数量 
上 更 加 巨大 且 增 长 速度 更 快 。 标 准 数据 库 及 数据 仓库 技术 ， 如 关系 模型 与 维度 模型 ， 无 法 充 
分 地 采集 大 数据 的 多 样 性 与 异 质 性 。 此 外 ， 关 系 型 DBMS 在 处 理 大 数据 的 复杂 查询 时 第 第 
不 能 提供 令 人 满意 的 性 能 。 

这 样 ， 便 出 现 了 几 种 处 理 大 数据 的 新 方法 ， 包 括 : 

e MapReduce 框架 (本 附录 中 将 进行 描述 )， 在 2004 年 首先 由 Google 引入 。 

e NoSQL 数据 库 ， 在 其 所 管理 的 数据 上 并 没有 采用 关系 结构 (已 在 附录 I 中 进行 描述 )。 

e 关系 数据 库 技 术 的 扩展 ， 如 为 RDBMS 设置 大 量 的 并 行 处 理 架 构 (已 在 附录 下 中 进行 

描述 ) 以 及 列 存 储 。 在 列 存储 中 ， 数 据 将 以 列 而 非 行 的 方式 实现 物理 存储 ， 从 而 为 一 
些 特定 类 型 的 查询 提供 了 性 能 优势 ， 如 列 的 聚集 。 


MAPREDUCE 


为 了 对 大 数据 的 处 理 方 法 进行 说 明 ， 我 们 将 简要 地 给 出 MapReduce 计算 框架 的 讨论 ， 
并 给 出 一 个 简单 实例 来 进行 说 明 

大 数据 的 一 个 典型 实例 是 大 量 非 结 构 化 的 文本 数据 ， 如 文章 、 评 论 、 微 博 等 。 为 了 以 标 
准 数据 仓库 的 方式 来 管理 这 些 数 据 ， 组 织 机 构 需 要 确定 一 个 固定 的 ETL。 但 是 ， 由 于 数据 的 


昌 “ 非 结构 化 数据 "、“ 半 结构 化 数据 "、“ 低 结构 化 数据 ”与 “ 轻 量 级 结构 化 数据 ”是 一 些 不 同 的 术语 ， 用 于 描 
述 那些 仅 具 有 少量 或 是 不 具有 正式 元 数据 的 数据 - 


府 有 灵 大 发 据 339 


多 样 性 ， 以 及 可 能 会 有 新 的 数据 源 持续 地 增加 进来 ， 所 以 不 可 能 找到 在 不 丢失 信息 情况 下 实 
现 数 据 转换 的 方法 。 因 而 ， 这些 数据 最 好 是 保留 成 原始 形式 。 例 如 ， 给 定 某 产品 或 服务 的 书 
面 评论 ， 我 们 可 能 并 不 清楚 该 评论 的 哪些 特性 需要 提取 、 哪 些 特性 需要 丢弃 ， 内 和 而， 最 好 对 
该 评论 完整 地 进行 保留 。 因 此 ， 处理 这 些 数据 将 不 可 能 采用 传统 的 数据 库 或 数据 仓库 技术 。 
即使 这 些 评 论 可 以 存储 为 文本 数据 类 型 的 列 ， 但 在 这 些 列 所 对 应 的 数 以 亿 计 的 记录 条 目 上 的 
计算 工作 将 会 变 得 非常 缓慢 ， 因 为 普通 的 数据 库 与 数据 仓库 并 不 是 用 来 有 效 地 处 理 巨大 规模 
的 数据 的 。 

2004 年 由 Google 发 明 的 MapReduce 杠 染 是 一 种 解决 大 数据 计算 问题 的 方法 。 
MapReduce 框架 使 用 了 一 个 节点 艇 (分 离 的 计算 机 ) 来 并 行 地 完成 任务 。MapReduce 计算 包 
括 两 个 阶段 :“ 映 射 阶段 ”与 “降低 阶段 ”. 

在 映射 阶段 ， 原 始 数 据 (如 包含 了 产品 评论 的 文本 ) 的 每 条 记录 将 由 一 个 程序 ( 常 由 
Java 或 其 他 通用 语言 来 书写 ) 映射 为 零 个 或 多 个 码 值 对 :一 个 码 可 以 是 一 个 简单 的 值 (如 一 
个 整数 或 是 一 个 URL)， 也 可 以 是 一 个 更 加 复杂 的 值 。 例 如 ， 给 定 一 个 产品 的 评论 ， 则 了 映射 
蚊 数 将 可 能 为 其 输出 几 个 码 值 对 。 每 个 码 值 对 中 包含 了 一 个 由 产品 与 特征 组 合 所 构成 的 码 ， 
以 及 该 产品 与 特 往 所 对 应 的 一 个 量化 值 。 由 于 每 对 输出 依赖 于 单个 的 输入 记录 ， 所 以 数据 输 
人 并 创建 相应 输出 对 的 工作 可 以 分 布 式 地 在 很 多 计算 机 节点 上 进行 ， 而 在 不 同 节点 中 完成 的 
所 有 映射 结果 ， 将 利用 框架 进行 统一 收集 。 

下 一 过 程 则 是 降低 阶段 。 这 一 阶段 将 收集 具有 相同 码 值 的 所 有 记录 ， 并 为 每 个 码 值 产生 
单个 的 输出 记录 。 降 低 阶 段 也 可 以 是 分 布 式 的 ， 基 于 码 值 在 很 多 计算 机 节点 上 进行 。 考 虑 以 
下 实例 . 

MapReduce 的 一 个 实例 

将 关于 网 球拍 的 一 套 书 面 评 论 转 换 为 网 球拍 特征 的 量化 评分 ， 其 输出 为 网 球拍 特征 的 量 
化 均值 。 

评论 R1: X 球 拍 非 常 灵 活 ， 强 劲 有 力 ， 但 控制 能 力 中 等 。 

评论 R2: Y 球拍 力量 中 等 ， 但 控制 能 力 极 强 。 

评论 R3: Y 球拍 具有 很 强 的 控制 能 力 ， 但 该 球拍 使 用 比较 费劲 ， 结 构 不 是 很 灵活 。 

映射 函数 的 输出 结果 : 

map(R1) -> (<X, flexibility>, 9), (<X, power>, 8), (<X, control>, 5) 

map(R2) -> (<Y, power>, 39), (<Y, control>. 10) 

map(R3) -> (<Y, control>, 9) , (<Y, power>, 3), (<Y, flexibility>, 2) 

评论 R1 的 映射 图 数 返 回 了 3 个 但 值 对 ， 第 1 个 码 值 对 的 码 为 <X, flexibility>， 其 值 为 9; 
第 2 个 码 值 对 的 码 为 <X, power>， 其 值 为 8; 第 3 个 码 值 对 的 码 为 <X, control>， 其 值 为 5。 

注意 ， 不 同 的 评论 可 由 不 同 的 节点 处 理 ， 其 映射 明 数 的 输出 可 由 不 同 的 节点 创建 ， 如 图 
J-1 所 示 。 而 各 个 映射 函数 的 输出 结果 将 会 由 框架 进行 统一 。 

下 一 步 则 是 为 每 个 独立 的 码 值 (球拍 , 特征 ) 完成 降低 阶段 ， 这 一 工作 也 可 以 分 布 式 地 
在 各 个 节点 中 进行 。 

降低 函数 的 输出 结果 : 

reduce((<X, flexibility>)) -> (<X, flexibility>, 9) 

reduce((<X, power>)) -> (< 入， power>, 8) 


reduce((<X, control>)) -> (<X, control>, 5) 





be 
(| 
| ~ 
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reduce((<Y, power >)) -> (<Y, power>, 4) 
reduce((<Y, control >)) -> (<Y, control>, 9.5) 
reduce((<Y, flexibility >)) -> (<Y, tlexibility>, 2) 


MAP REDUCE 
节点 1 节点 1 


R1 map(R1i) -> (<X, flexibility >, 9), reduce((<X, flexibility>)) -> (<X, flexibility>, 9) 


<X, POower>, 8), (<X, Control> ,5 
( P ),( ) reduce((<X, power>)) -> {<X, power>, 8) 


flexibility>, 9) 


节点 2 , Power>, 8) 节点 2 
R2 map(R2) -> (<Y, power>, 5), XCoNtrol>3) reduce((<X, control>)) -> (<X, control>, 5) 
(<Y, conNntrol>, 10) , Power>, 5) 
fe ,ner B= - reduce((<Y, power>)) -> (<Y, power>, 4) 


, ConNntrol>, 10) 






节点 3 , ConNtrol>, 9) ~ 节点 3 
Y, flexibil 
R3 map(R3) -> (<Y, control>, 9), Vy DY reduce({<Y¥, control>)) -> (<Y, control>, 9.5) 
LE OO ET Drs UI Ete eh reduce((<Y, flexibility>)) -> (<Y, flexibility>, 2) | 


图 J-1 MapReduce 示例 


例如 ，<Y, power> 的 降低 操作 可 以 在 某 个 节点 中 进行 ， 该 节点 将 合并 映射 函数 的 两 个 输 
出 (<Y, power>, 5) 及 (<Y, power>, 3)， 并 计算 量化 均值 ， 产 生 一 个 降低 结果 值 (<Y power>， 
4)。 同 时 ，<Y, control> 的 降低 操作 则 可 以 在 另 一 个 节点 中 进行 ， 该 节点 将 合并 映射 函数 的 
两 个 输出 (<Y, control>, 10) 及 (<Y, control>, 9)， 并 计算 量化 均值 ， 产 生 一 个 降低 结果 值 (<Y, 
control>, 9.5)。 这 一 过 程 已 在 图 J-1 中 做 出 说 明 。 

图 J-1 中 的 映射 降低 操作 的 结果 值 可 以 以 表 的 方式 来 显示 或 存储 ， 如 图 J-2 所 示 。 


x ny lg 
xp le 
x 让 










给 定 映射 、 降 低 函 数 及 输入 数据 集 后 ，MapReduce 框架 ”将 能 确定 如 何在 节点 中 分 布 数 
据 ， 并 以 菜 种 方式 来 执行 映射 及 降低 操作 ， 从 而 确保 有 效 的 性 能 。 例 如 ， 如 果 所 有 节点 的 执 
行 力 相 同 ， 则 任务 将 进行 平均 分 配 。 和 若 有 某 个 节点 失效 ， 它 的 工作 则 将 被 分 配给 其 他 节点 。 

注意 ， 程 序 员 仅 需 要 书写 映射 与 降低 函数 ， 其 余 工 作 一 一 如 启动 计算 节点 ， 在 计算 节点 
中 分 布 数据 ， 收 集 映 射 操作 的 输出 结果 ， 对 结果 进行 排序 并 将 其 分 布 到 计算 节点 中 ， 以 及 降 
低 操作 的 执行 一 一 都 由 框架 完成 。 即 便 映 射 与 降低 函数 可 能 相对 复杂 ， 但 一 般 来 讲 ， 它 们 往 
往 导 上 述 实例 中 所 展示 的 一 样 简单 (或 更 加 简单 )。 在 某 种 意义 上 ， 开 发 工作 的 相对 简易 性 
类 似 于 为 处 理 关 系数 据 而 书写 一 个 SQL 查询 。 在 RDBMS 中 ，SQL 查询 将 不 必 指 定数 据 表 
如 何 进 行 存 取 或 用 哪 种 特定 的 算法 来 实现 一 个 连接 操作 。 在 MapReduce 中 ， 程 序 员 将 不 必 


折 Apache Hadoop 是 MapReduce 框架 中 最 流行 (和 开源 ) 的 实现 。 


有 府 灵 JJ 大 缆 所 34] 


关注 底层 细节 ， 如 数据 分 布 、 节 点 失效 、 排 序 算法 等 。 因 此 ， 在 这 两 种 情况 下 ， 由 于 分 别 使 
用 了 RDBMS 及 MapReduce 执行 咒 (如 Apache Hadoop)， 从 而 程序 员 的 任务 得 到 了 显著 的 
简化 。 

正如 上 例 所 示 ， 处 理 这 些 非 结 构 化 的 数据 将 产生 一 个 有 序 的 、 易 读 的 数据 集 ， 它 可 以 直 
接 报 告 给 用 户 ， 或 是 存储 到 电子 制 表 软件 、 数 据 库 、 数 据 集 市 或 数据 仓库 中 。 注 意 ， 原 始 数 
据 集 ( 即 网 球拍 书面 评论 的 信息 收集 ) 仍然 是 完整 的 ， 并 可 用 于 其 他 类 型 的 数据 分 析 。 

大 数据 技术 增强 了 组 织 对 其 所 拥有 或 可 访问 数据 的 分 析 能 力 。 大 数据 方法 (如 
MapReduce) 并 不 是 要 替代 数据 库 与 数据 仓库 的 相关 方法 (这 些 方法 主要 用 于 对 可 以 正式 建 
模 的 数据 资产 进行 管理 与 利用 )， 而 是 允许 组 织 机 构 对 那些 不 适 于 数据 库 与 数据 仓库 技术 规 
范 的 数据 做 出 分 析 与 理解 。 
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access privilege ( 存 取 权 限 ) 分 配给 用 户 账 户 
的 权限 ， 用 来 确定 该 用 户 在 某 一 数据 库 对 象 
上 可 以 进行 哪些 操作 (SELECT，UPDATE， 
ALTER, DELETE, INSERT). 

accidental misuse (意外 误 操 作 ) 由 于 意外 而 不 
是 恶意 导致 的 对 数据 库 系 统 中 数据 条 目的 误 

accuracy ( 准确 性 ) (数据 质量 ) 数据 刻画 真实 实 
例 正 确 性 的 程度 。 

active data warehouse (动态 数据 仓库 ) 持续 地 
微 批 量 加 载 的 数据 仓库 ， 以 确保 数据 仓库 中 
的 数据 接近 实时 更 新 (以 确保 能 够 分 析 最 新 
数据 )， 

aggregate function (聚集 函数 ) 用 于 计算 和 统 
计 查 询 结 果 的 SQL 遇 数 ,包括 COUNT、 
SUM、AVG、MIN 及 MAX. 

aggregated data (聚集 数据 ) 表示 多 个 实例 汇总 
的 数据 。 

aggregated fact table (聚集 事实 表 ) 每 条 i 记 水 概 
括 了 多 个 事实 的 事实 表 。 

alias (别名 ) 一 个 其 他 的 名 字 (通常 较 短 )， 可 在 
查询 中 的 任何 地 方 代替 完整 的 关系 名 ; 列 也 
可 以 有 别名 ， 但 只 限制 在 查询 内 部 使 用 。 

alpha release ( a 版 ) 面向 内 部 开发 团队 成 员 部 
署 的 系统 ， 用 于 对 其 功能 进行 初步 测试 。 

ALTER TABLE ( SQL) 用 于 修改 已 创建 的 关系 
结构 。 

analytical databases (分 析 型 数据 库 ) 包含 分 析 
信息 的 数据 库 。 

analytical information (分 析 信 息 ) 为 支持 分 析 任 
务 而 收集 和 使 用 的 信息 ， 基 于 的 是 操作 ( 事 
务 ) 信息 。 

application development component (应 用 开发 
组 件 ) 向 前 端 应 用 开发 人 员 提 供 功 能 接口 。 
在 某 些 DBMS 包 中 ， 该 组 件 是 DBMS 的 
一 部 分 ; 在 有 些 DBMS 包 中 ， 该 组 件 是 可 

application-oriented (面向 应 用 ) 支持 为 若干 业 


务 操作 及 处 理 过 程 提 供 服 务 的 应 用 。 

assertion (断言 ) 用 于 指定 用 户 自 定义 约束 的 一 
种 机 制 | - 

association rule mining (关联 规则 挖掘 ) 找 出 
在 事务 中 倾向 于 共同 出 现 的 项 集 的 数据 挖掘 
方法 

associated entity (关联 实体 ) ER 图 中 用 于 描述 
M : N 联系 的 另 一 种 方式 。 

attribute ( of an entity) ( 属性 (实体 的 )) 实体 特 
征 的 摘 述 . 

attribute ( of a relation ) (属性 (关系 的 ) ) 
一. 列 。 

augmented functional dependency ( 增 广 函 数 依 
赖 ) 包含 已 有 吗 数 依赖 的 也 数 依赖 。 它 们 不 
能 为 已 有 的 函数 依赖 增加 更 多 的 信息 ， 因 此 
可 以 省 略 

authentication (认证 ) 利用 用 户 账户 标识 符 及 密 
码 进行 登录 以 确认 用 户 的 英 份 。 

authorization matrix ( 授权 和 矩阵 ) 行 和 列 分 别 代 
表 数 据 库 主 客体 的 矩阵 (由 DBMS 提供 ， 并 
可 由 DBA 进行 操纵 )， 和 抢 阵 中 的 实体 显示 
了 一 个 用 户 对 于 特定 客体 所 分 配 到 的 特定 
权限 

autonumber data type (自动 编号 数据 类 型 ) 在 
一 个 列 中 自动 产生 连续 数值 的 数据 类 型 。 

AVG aggregate function. 

backup (备份 ) 除了 原始 副本 外 ， 额 外 存储 数据 
的 物理 副本 ， 

beta release ( B 版 ) 选择 一 组 用 户 部 署 以 对 系 
统 的 可 用 性 进行 测试 的 系统 (在 a 版 之 后 )。 

big data (大 数据 ) 一 个 广义 的 术语 ， 指 的 是 大 
量 不 同 种 类 日 快速 增长 的 数据 ， 这 些 数据 无 
法 正式 地 进行 建 模 。 

binary relationship (二 元 联系 ) ER 图 中 涉及 两 
个 实体 的 联系 ， 也 称 为 度 为 2 的 联系 。 

binary search (二 分 查找 ) 利用 排 好 序 的 列表 的 

Boyce-Codd normal form，BCNF ( BCNF 范式 ) 


关系 的 
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如 果 一 个 表 除 具有 完全 轴 数 依赖 外 ， 不 册 包 

含 其 他 函数 依赖 ( 即 仅 主 码 或 是 候选 码 能 够 

完全 地 确定 其 他 列 )， 则 该 表 满 足 BCNF 范 

bridge relation ( 桥 关系 ) 表示 M : N 联系 的 关系 . 

business intelligence (Bl) tool (BI 工具 ) 见 online 
analytical processing (OLAP) tool. 

business rule (业务 规则 ) 一 类 在 最 终生 成 的 数 
据 库 中 指定 的 用 户 自 定义 约束 ， 该 约束 并 没 
有 作为 创建 ER 图 标准 符号 的 一 部 分 。 

candidate key (候选 码 ) 当 实 体 同 时 拥有 多 个 唯 
一 属性 时 ， 每 个 唯一 属性 称 为 一 个 候选 但 

cardinality constraint ( 基数 约束 ) 表示 该 实体 可 
以 有 多 少 实例 与 另 一 实体 的 实例 存在 联系 的 
ER 图 关系 符号 。 

catalog ( 目录) 由 DBMS 创建 的 数据 字典 。 

CHECK ( SQL) 用 于 指定 一 个 关系 表 中 某 一 特 
定 列 的 约束 。 

checkpoint (检查 点 ) 恢复 日 志 的 一 部 分 。 当 一 
个 检查 点 被 创建 时 ， 恢 复 日 志 中 的 所 有 更 新 
记录 ， 以 及 内 存 中 各 数据 更 新 的 结果 值 ， 均 
将 被 写 人 数据 库 的 磁盘 数据 文件 中 : 

circular foreign key dependency (循环 外 码 依赖 ) 
发 生 在 表 A 有 外 码 参 照 表 B 的 主 码 , 日 表 B 
也 有 外 码 参 照 表 A 的 主 码 时 。 

class (类 ) 一 个 面向 对 象 的 概念 ， 指 一 组 分 享 同 
种 结构 与 操作 的 对 象 。 

class hierarchy / specialization hierarchy ( 类 层 
次 / 特 化 层次 ) 包含 由 “1IS-A” 关 系 联 系 起 
来 的 超 类 和 子 类 的 面向 对 象 的 层次 结构 。 

class instance (类 的 实例 ) 一 个 特定 类 的 对 象 。 

cloud computing system ( 云 计算 系统 ) 使 用 因 
特 网 实现 数据 存储 与 处 理 服 务 的 系统 ， 这 些 
服务 由 服务 提供 商 主 导 。 

column ( 列 ) 见 attribute (of a relation). 

COMMIT ( SQL) 将 数据 库 的 所 有 更 新 记录 到 磁 
盘 上 的 TCL 命令 。 

complete mirrored backup (完全 镜像 备份 ) 持 
续 地 进行 更 新 以 保持 与 源 数据 库 完 全 一 致 的 
单独 的 完全 物理 副本 . 

completeness (完整 性 ) (数据 质量 ) 需求 数据 被 
描述 的 完整 程度 。 

composite attribute (复合 属性 ) 由 震 干 属性 组 
合 得 到 的 实体 属性 。 


composite primary key (复合 主 码 ) 由 多 个 属性 
组 合 起 来 形成 的 关系 的 主 码 。 

composite unique attribute ( 复合 的 唯一 属性 ) 
由 若干 属性 组 合 得 到 的 实体 属性 ， 对 于 每 个 
实体 ， 该 属性 的 值 都 不 相同 。 

conceptual database model (概念 数据 库 模 型 ) 
可 视 化 数据 库 需 求 ， 独 立 于 特定 DBMS 所 基 
于 的 逻辑 数据 库 模型 。 

conformed dimension (一 致 维度 ) 开发 星 形 
模式 之 前 的 标准 化 维度 ， 通 常用 于 多 个 事 

conformity (统一 性 ) (数据 质量 ) 数据 符合 某 特 
定格 式 的 程度 。 

consistency (一 致 性 ) (数据 质量 ) 数据 恰当 地 
符合 及 匹配 其 他 数据 的 程度 ， 

constellation/galaxy of stars (星座 /星系 ) 包含 
多 个 事实 表 的 星 形 模式 。 

corrective data quality action (数据 质量 校正 措施 ) 
校正 数据 质量 问题 的 措施 。 

correlated subquery (相关 子 查询 ) 使 用 外 查询 
SELECT 部 分 列 出 的 某 关 系 中 某 些 列 的 内 碍 
询 ( 骸 套 查询 )。 

COUNT 风 aggregate function, 

CREATE TABLE ( SQL) 用 于 关系 数据 库 表 的 创 
建 和 连接 。 

CREATE VIEW (SQL) 用 于 创建 视图 。 

creating ETL infrastructure (创建 ETL 架构 ) 为 
ETL 创建 必要 的 程序 和 代码 。 

creating the data warehouse (创建 数据 仓库 ) 
使 用 DBMS 将 数据 仓库 模型 实现 为 一 个 真实 
的 数据 仓库 。 

cube (立方 体 ) 多 维度 数据 库存 储 库 ， 可 用 于 存 
储 维度 建 模 的 数据 。 

data ( 数据) 已 记录 或 者 可 得 到 的 事实 。 

data cleansing/scrubbing (数据 清洗 / 清理 ) 检 
测 和 校正 低 质 量 的 数据 。 

data control language，DCL (数据 控制 语言 ) 
SQL 语言 的 一 部 分 ， 用 于 数据 库 维护 及 管 
理 相 关 的 过 程 ， 帮 助 实现 数据 的 存 取 控 制 

data custodian (数据 管理 者 ) 负责 数据 管理 及 
使 用 中 的 技术 问题 ， 如 数据 的 保护 、 传 输 与 
存储 。 

data definition component (数据 定义 组 件 ) 数 


据 库 设计 者 用 于 创建 数据 库 结 构 ( 如 数据 库 
表 以 及 连接 已 创建 数据 库 表 的 参照 完整 性 约 
束 ) 的 DBMS 组 件 。 

data definition language, DDL (数据 定义 语言 ) 
SQL 语言 的 一 部 分 ， 用 于 创建 和 修改 数据 库 
结构 。 

data dictionary ( 数据 字典 ) 数据 库 元 数据 的 存 
储 库 . 

data duplication (数据 重复 ) 唯一 性 数据 质量 
问题 导致 的 结果 。 发 生 在 同一 数据 收集 过 程 
中 ， 一 个 真实 实例 被 表示 了 多 于 一 次 时 。 

data governance (数据 管理 ) 一 个 广义 的 术语 ， 
用 于 组 织 机 构 中 的 权限 定义 ， 以 形成 正式 的 
规定 ， 确 定 组 织 中 的 数据 与 元 数据 在 何 时 、 
以 何 种 方式 、 由 谁 来 进行 创建 、 储 存 、 更 新 
( 插 和 人 入、 修改、 删除 ) 及 存档 。 

data manipulation component (数据 操纵 组 件 ) 
终端 用 户 用 其 向 数据 库 中 插入 、 读 、 更 新 和 
删除 信息 的 DBMS 组 件 。 

data manipulation language, DML ( 数据 操纵 语言 ) 
SQL 语言 的 一 部 分 ， 用 于 操作 数据 库 中 的 数 
据 ， 包 括 对 数据 库 中 数据 的 插入 、 修 改 、 删 

data mart (数据 集 市 ) 与 数据 仓库 具有 相似 准 
则 的 数据 存储 形式 ， 但 相 比 数据 仓库 ， 其 范 
围 更 小 ; 数据 仓库 包含 的 数据 是 检索 目 整 个 
组 织 机 构 的 操作 型 数据 库 中 的 多 主题 分 析 数 
据 ， 而 数据 集 市 通常 较 小 ， 包 含 的 数据 只 
与 一 个 主题 相关 ， 没 有 必要 涉及 整个 企业 

data mining ( 数据 挖掘 ) 在 大 量 数据 中 发 现 新 奇 
而 有 趣 的 模式 的 过 程 。 

data quality ( 数据 质量 ) 由 不 同 的 数据 特性 定义 ， 
包括 准确 性 、 唯 一 性 、 完 整 性 、 一 致 性 、 太 
时 性 和 统一 性 。 

data replication (数据 复制 ) 分 布 式 数据 库 中 在 
不 同 的 位 置 存储 多 个 数据 副本 。 

data steward (数据 专员 ) 进行 数据 管理 相关 任 
务 的 人 ， 负 责 数据 库 中 数据 的 正确 使 用 。 

data warehouse (数据 仓库 ) 一 种 有 结构 的 数据 
存储 形式 ， 其 存储 的 数据 具有 集成 性 、 面 加 
主题 、 企 业 范 围 跨度 、 历 史 性 以 及 时 变性 的 
特点 。 数 据 仓库 的 目的 是 用 于 对 分 析 型 数据 
进行 检索 。 数 据 仓 库 可 以 保存 细节 型 或 是 汇 


总 型 的 数据 。 

data warehouse administration and maintenance 
(数据 仓库 管理 与 维护 ) 支持 终端 用 户 使 用 
数据 仓库 的 相关 活动 ， 包括 各 类 技术 问题 的 
处 理 ， 如 保证 数据 仓库 中 信息 的 安全 、 确 保 
数据 仓库 中 的 内 容 拥 有 充分 的 硬盘 空间 、 实 
现 数据 的 备份 与 恢复 。 

data warehouse deployment ( 数据 仓库 部 署 ) 
将 数据 仓库 及 其 前 端 应 用 交 给 终端 用 户 使 用 - 

data warehouse modeling (数据 仓库 建 模 ) 通 
过 DBMS 软件 创建 可 实现 的 数据 仓库 模型 ， 
是 需求 收集 、 定 义 以 及 可 视 化 表示 完成 之 后 
的 第 一 个 步骤 。 

data warehouse use (数据 仓库 使 用 ) 用 户 检索 
数据 仓库 中 的 数据 。 

database (数据 库 ) 在 计算 媒介 上 按 结构 存储 的 
相关 数据 ， 目 的 是 方便 用 户 有 效 地 从 数据 中 
获取 信息 。 

database administration and maintenance (数据 
库 管 理 和 维护 ) 支持 终端 用 户 使 用 数据 库 的 
相关 活动 ， 包 括 处 理 各 类 技术 问题 ， 比 如 为 
数据 库 中 的 信息 提供 安全 支持 、 确 保 足 够 的 
硬盘 空间 来 存储 数据 库 的 内 容 、 实 现 数据 备 
份 和 恢复 等 过 程 。 

database administration component (数据 库 管 
理 组 件 ) 用 于 完成 数据 库 系统 技术 性 、 管 理 
性 或 维护 性 的 任务 ， 如 确保 系统 安全 、 人 性 能 
优化 或 实现 系统 备份 与 恢复 的 DBMS 组 件 。 

database administrator, DBA (数据 库 管 理 员 ) 
负责 处 理 与 安全 相关 的 技术 问题 (如 创建 、 
分 配 用 户 名 和 密码 ， 数 据 库 的 权限 管理 等 ) 
的 人 ， 包 括 数据 库 系统 的 备份 和 恢复 、 使 用 
监督 、 根 据 需要 增加 内 存 空 间 及 其 他 数据 库 
系统 相关 技术 问题 。 

database analyst ( 数据库 分 析 者 ) 参与 需求 的 
收集 、 定 义 和 可 视 化 阶段 的 人 。 

database as a service, DaaS (数据 库 即 服务 ) 
Saas 的 一 个 特例 ， 专 门 用 于 云 中 的 数据 库 

database deployment (数据 库 部 署 ) 将 数据 库 
系统 (如 数据 库 及 其 前 端 应 用 ) 提供 给 终端 
用 户 使 用 。 

database designer/dataset modeler or architect 


(数据 库 设 计 者 /数据 库 建 模 者 或 构建 者 ) 


全 与 数据 库 建 模 阶 段 的 人 . 

database developer (数据 库 开 发 者 ) 负责 使 用 
DBMS 软件 完成 数据 库 模 型 中 的 数据 库 使 用 
功能 的 人 . 

database fragmentation (数据 库 分 片 ) 分 布 
式 系 统 中 一 种 基于 不 同位 置 点 的 数据 分 布 
靖 上 略 

database front-end (数据 库 前 端 ) 数据 库 系 统 的 

-个 组 件 ， 提 供 了 一 种 不 需要 用 户 书 写 命令 

的 访问 方式 ( 即 间接 访问 )。 

database implementation (数据 库 实现 ) 使 用 
DBMS 将 数据 库 模型 实现 为 一 个 真正 的 数 
据 库 :， 

database management system, DBMS (数据 库 
管理 系统 ) 用 于 创建 数据 库 ， 插入、 存储 、 
位 索 、 更 新 和 删除 数据 库 中 的 数据 ， 以 及 维 
护 数 据 库 的 软件 。 

jatabase metadata (数据 库 元 数据 ) 数据 的 数 
泛 ， 不 是 数据 本 身 的 数据 库 内 容 (如 表 名 、 
列 名 ) 

database modeling /logical database modeling 
(数据 库 建 模 / 逻 辑 数 据 库 建 模 ) 由 DBMS 
软件 执行 的 数据 库 模型 创建 过 程 ， 收 集 、 定 
义 和 可 视 化 需求 之 后 的 第 一 个 步骤 。 

database policy and standard (数据 库 的 政策 与 
标准 ) 数据 库 开 发 、 使 用 和 管理 中 的 政策 与 
标准 . 所 有 数据 库 政策 与 标准 的 共同 目的 是 
反映 并 支持 数据 库 的 业务 流程 与 业务 逻辑 。 

database requirement ( 数据库 需 求 ) 定义 竺 开 
发 数据 库 的 数据 和 元 数据 的 细节 和 约束 的 语 
句 。 数 据 库 需 求 说 明 将 要 记录 和 以 什么 方式 
记录 数据 。 

database system (数据 库 系 统 ) 基于 计算 机 系 
统 ， 其 目的 是 在 用 户 和 数据 库 信息 之 间 保 证 
高 效 的 交互 。 

database use (数据 库 使 用 ) 终端 用 户 对 数据 库 
系统 中 数据 的 插入 、 修 改 、 删 除 以 及 查询 。 

decryption key (解密 密 钥 ) 将 信息 转换 至 原始 
状态 的 算法 。 

degenerate dimension (退化 维度 ) 事实 表 中 包 
含 的 时 间 标 识 符 (而 不 是 自己 有 一 个 单独 的 
维度 )。 

degree of a relationship (联系 的 度 ) 表示 有 多 
少 个 实体 参与 到 该 联系 中 . 





delete cascade (级 联 删 除 ) 个 参 曲 完 苞 性 多 
束 选项 ， 如 果 一 条 记录 的 主 但 值 被 另 一 条 记 
录 的 外 码 值 所 参照 ， 则 允许 删除 该 记录 ; 所 
有 外 码 值 参 照 了 被 删除 记录 主 码 值 的 记录 也 
会 被 删除 . 

delete operation (删除 操作 ) 用 了 -从 关系 中 移 除 
数据 的 数据 库 操作 .。 

delete restrict (限制 删除 ) 个 参照 完整 性 约束 
选项 ， 如 果 一 条 记录 的 主 码 值 被 另 一 条 记 壬 
的 外 码 值 所 参照 、 则 不 允 计 删除 该 记录 。 

delete set-to-default (删除 设置 为 默认 值 ) 一 个 
参照 完整 性 约束 选项 ， 如 果 一 条 记录 的 主 但 
值 被 男 一 条 记录 的 外 人 码 值 所 参照 ， 则 允许 删 
除 该 记录 ; 所 有 外 码 值 参照 了 被 删除 记录 十 
伍 值 的 记录 ， 其 外 三 值 被 设置 为 预先 定义 反 
默认 值 。 

delete set-to-null ( 删除 设置 为 空 ) 一 个 参照 元 
整 性 约束 选项 ， 如 果 一 条 记录 的 主 码 值 被 态 
一 条 记录 的 外 公 值 所 参照 ， 则 允许 删除 该 记 
录 ; 所 有 外 码 值 参 照 了 被 删除 记录 主 码 值 的 
记录 ， 其 外 人 码 值 被 设置 为 空 。 

DELETE ( SQL) 用 于 删除 存储 在 数据 库 关 系 中 
的 数据 。 

deletion anomaly (删除 异常 ) 一 种 更 新 异常 ， 
发 生 在 用 户 想 要 删除 某 一 真实 世界 中 的 实体 
数据 时 ， 还 必须 删除 另 一 个 真实 世界 中 的 实 
体 数据 的 情况 下 。 

denormalization ( 逆 规 范 化 ) .把 多 个 规范 化 的 表 
连接 成 一 个 非 规范 化 的 表 ， 得 到 与 规范 化 相 
反 的 效果 。 

dependent data mart ( 非 独 立 数据 集 市 ) 没有 
自己 的 源 系统 的 数据 集 市 ， 其 数据 来 日 数据 
如 这 

derived attribute (派生 属性 ) 属性 值 由 计算 得 到 
且 非 永久 性 存 于 数据 库 的 实体 的 属性 。 

designer-added entity/table (设计 者 添加 的 实体 / 
表 ) 数据 库 设计 者 添加 的 、 非 原始 需求 要 求 
的 实体 ， 结 果 会 得 到 设计 者 添加 的 表 。 

designer-added key (设计 者 添加 的 码 ) 设计 者 
添加 的 表 中 的 主 码 ， 由 数据 库 设 计 者 创建 。 

designer-created primary key (设计 者 创建 的 主 码 ) 
数据 库 设计 者 向 表 中 添加 的 、 不 是 原始 需求 
要 求 的 主 码 。 

detailed data (细节 数据 ) 单个 数据 实例 组 成 的 


数据 . 

detailed fact table (细节 事实 表 ) 每 条 记录 代表 
一 个 单一 事实 的 事实 表 。 

developing front-end application ( 开发 前 端 应 用 ) 
设计 和 创建 可 供 终端 用 户 非 直 接 使 用 数据 库 
的 应 用 . 

dimensional table ( dimension ) (维度 表 ) 维度 
模型 中 的 表 ， 包 含 对 所 要 分 析 的 主题 属于 商 
业 、 组 织 或 企业 的 描述 ， 日 包含 一 个 主公 和 
事实 表 中 度量 分 析 所 使 用 的 属性 

dimensional modeling (维度 建 模 ) 用 于 面 回 主 
题 的 分 析 型 数据 库 (如 数据 仓库 或 数据 集 市 ) 
设计 的 一 套数 据 设 计 方 法 . 

dimensionally modeled data warehouse (维度 建 
模 的 数据 仓库 ) 使 用 维度 建 模 的 数据 仓库 . 

direct interaction ( 直接 交互 ) 即 终端 用 户 直 接 与 
数据 库 管理 系统 进行 通信 的 交互 操作 

disjointed subclass ( 非 连 接 子 类 ) 没有 普通 的 实 
例 ， 共 享 同一 超 类 实体 的 子 类 实体 

DISTINCT ( SQL) 结合 SELECT 语句 一 起 使 用 ， 
用 于 消除 查询 结果 中 的 重复 但. 

distributed database system, DDBS (分 布 式 数 
据 库 系统 ) 分 布 于 不 同 计 算 机 上 的 数据 库 

distribution transparency (分 布 透明 性 ) 终 新 用 
户 可 采用 同 种 方式 来 使 用 分 布 式 数据 库 ， 好 
似 数据 库 并 非 分 布 式 的 DDBS 特性 ( 即 不 必 
知道 数据 分 布 的 细节 ， 贡 至 不 必 知 道 数 据 是 
分 布 式 的 )。 

domain constraint ( 域 约束 ) 关系 数据 库 约 束 ， 
规定 在 一 个 关系 中 ， 每 一 列 中 的 取 值 应 该 来 
自 预 定义 的 域 

drill down (下 钼 ) 使 得 查询 结果 中 的 数据 粒度 更 
精细 的 OLAP 操作 . 

drill up (上 卷 ) 使 得 查询 结果 中 的 数据 粒度 更 粗 
糙 的 OLAP 操作 。 

DROP TABLE ( SQL) 用 于 从 数据 库 中 移 除 一 个 

DROP VIEW (SQL) 用 于 移 除 一 个 视图 。 

encryption (加 密 ) 使 用 置 乱 算法 来 实现 信息 的 
转换 ， 从 而 使 信息 对 于 没有 解密 秘 铀 的 人 变 
得 不 可 读 。 

encryption key (加 密 密 钥 ) 用 于 使 数据 对 于 没 
有 人 解密 秘 钥 的 人 不 可 读 的 置 乱 算 法 。 


end user/business user (终端 用 户 / 业 务 用 户 ) 
使 用 数据 库 系 统 来 辅助 处 理 与 工作 或 者 生活 
相关 的 任务 和 事务 的 人 . 

enhanced ER, EER (扩展 的 ER 模型 ) 对 ER 符 
号 体系 的 扩充 ， 可 以 描述 标准 ER 模型 之 外 
的 一 些 概 念 。 

enterprise resources planning (ERP ) system ( 企 
业 资 源 计 划 系 统 ) 一 个 预 置 的 、 综 合 性 的 
(多 功能 的 ) 公司 信息 系统 . 

entity (实体 ) 描述 数据 库 所 记录 内 容 的 ER 图 
组 件 ， 

entity instance/entity member (实体 实例 /实体 
成 员 ) 实际 出 现 的 实体 。 

entity integrity constraint ( 实体 完整 性 约束 ) 一 
条 关系 数据 库 规则 ， 所 有 的 主 但 属性 必须 有 
非 空 取 值 。 

entity-relationship ( ER) modeling (实体 一 关系 
建 模 ) 一 种 广泛 使 用 的 概念 数据 库 建 模 方 
法 ， 用 于 需求 收集 过 程 的 构建 和 组 织 ， 并 提 
供 了 一 种 用 图 形 方 式 表 示 需 求 的 方法 。 

equivalent functional dependency (等 价 函数 依 
赖 ) 发 生 在 互相 图 数 依 赖 的 两 列 (或 两 组 
列 ) 确定 其 他 列 时 。 如 果 给 出 了 等 价 函 数 依 
不 中 的 一 个 ， 那 么 另 一 个 等 价 的 函数 依赖 就 
不 必 给 出 了 了 : 

ER diagram, ERD ( ER 图 ) 数据 库 需 求 的 图 形 
化 表示 ， 包 括 实 体 和 联系 。 

exact minimum and/or maximum cardinality ( 最 
小 基数 和 / 或 最 大 基数 的 确切 值 ) 事先 知道 
的 最 小 基数 和 /或 最 大 基数 。 

EXCEPT 见 MINUS 。 

executive dashboard (管理 展示 板 ) 包含 一 系列 
有 组 织 的 、 易 读 的、 描述 组 织 性 能 的 重要 查 
询 的 前 端 应 用 ， 

EXISTS ( SQL) 用 于 检查 内 查询 的 结果 是 省 
为 空 。 

extensible markup language，XML (可 扩展 标记 
语言 ) 在 文档 中 增加 了 结构 与 语义 的 标记 
语言 。 

extensible stylesheet language，XSL (可 扩展 
样式 表 语 言 ) 用 于 表示 Web 页 面 XML 元 素 
的 语言 。 

extraction-transformation-load, ETL (提取 一 转换 一 
加 载 ) 从 操作 型 数据 源 中 提取 可 分 析 的 有 用 


数据 的 过 程 ; 转换 数据 使 其 满足 面向 主题 日 
标 数 据 仓 库 的 结构 ， 同 时 确保 转换 后 数据 的 
质量 ; 将 转换 后 是 有 质量 保证 的 数据 加 载 到 
目标 数据 仓库 中 ， 

fact table (事实 表 ) 维度 模型 中 表 ， 包 含 对 于 所 
分 析 主 题 的 度量 以 及 将 事实 表 与 维度 表 关 联 
的 外 仙 . 

federated database (联合 数据 库 ) 一 类 分 布 式 
数据 库 系统 ， 由 连 入 同一 系统 的 一 批 现 存 数 
据 库 组 成 . 

field ( 域 ) 见 column 

first load (首次 加 载 ) 加 载 的 初期 ， 即 填充 空 的 
数据 仓库 ， 

first normal form, 1NF (第 一 范式 ) 如 果 表 的 每 
一 行 都 是 唯一 的 并 且 任 何 行 都 没有 包含 多 个 
值 的 列 ， 则 这 个 表 满 足 INF 

foreign key (外 码 ) 某 关 系 中 的 一 列 ， 这 一 列 
又 恰好 是 另外 一 个 (被 参照 的 ) 关系 中 的 
主 码 。 

form (表格 ) 用 于 支持 终端 用 户 输入 和 检索 数据 
的 数据 库 前 端 组 件 。 

fourth normal form, 4NF (第 四 范式 ) 一 个 表 石 
满足 BCNF 且 不 包含 多 值 依 赖 ， 则 它 满足 
4NF。 因 此 ， 一 个 关系 中 若 包 含 多 值 依 吏 ， 
则 该 关系 将 不 满足 4NF 

front-end application (前 端 应 用 程序 ) 一 种 为 
用 户 和 数据 库 管理 系统 之 间 提 供 交 互 的 应 用 

front-end applications analyst (前 端 应 用 程序 分 
析 者 ) 负责 为 前 端 应 用 程序 收集 和 定义 需求 
的 人 。 

front-end applications developer (前 端 应 用 程序 
开发 者 ) 负责 创建 前 端 应 用 程序 的 人 。 

full key functional dependency (完全 函数 依赖 ) 
发 生 在 主 码 函 数 确定 关系 中 的 其 他 列 ， 并且 
主 码 的 任意 一 部 分 都 不 能 单独 确定 同样 的 
列 时 。 

FULL OUTER JOIN 见 OUTER JOIN statement 

fully replicated distributed database (完全 复制 分 
布 式 数据 库 ) 整个 数据 库 均 在 分 布 式 系统 的 
每 个 位 置 点 上 进行 复制 的 一 类 复制 。 

functional dependency ( 函数 依赖 ) 发 生 在 关系 
的 每 条 记录 中 一 列 (或 几 列 ) 的 值 唯 一 决定 
同一 条 记录 中 男 一 列 的 值 时 . 


GRANT (SQL) 用 来 授予 访问 权限 的 语句 : 

granularity (粒度 ) 刻画 事实 表 中 每 一 行 描述 了 
有 

GROUP BY ( SQL) 可 以 对 表 中 相关 联 的 数据 近 
组 进行 聚集 操作 : 

HAVING ( SQL) 决定 查询 中 哪些 组 将 在 结 末 中 
展示 ， 当 然 也 决定 了 哪些 组 不 在 结果 中 展 
不。 

heterogeneous DDBS ( 异 构 型 DDBS) 不 同 的 
计算 机 可 以 运行 不 同 DBMS 的 DDBS 染 构 

homogeneous DDBS ( 同 构 型 DDBS) 所 有 的 
计算 机 运行 相同 DBMS 的 DDBS 架构 . 

horizontal fragmentation (水 平分 片 ) 表 的 记录 
子 集 存 储 于 DDBS 的 不 同位 置 的 分 三 。 

hybrid online analytical processing, HOLAP !( 混 
合 型 在 线 分 析 处 理 ) 结合 『 MOLAP 和 
ROLAP 的 OLAP 架构 。 

hypertext markup language, HTML ( 超 文本 标记 
语言 ) 具有 描述 如 何 显 示 Web 页 面 信息 功 
能 的 标记 语言 : 

identifying relationship (标识 性 联系 ) ER 图 中 
弱 实体 及 其 主 实体 之 回 的 联系 。 

implicit constrain ( 隐 含 约束 ) 为 使 关系 数据 库 
有 效 而 必须 满足 的 隐 含 的 关系 数据 库 横 型 
规则 

IN (SQL) 用 于 将 一 个 值 与 一 组 值 进行 比较 。 

independent data mart ( 独立 数据 集 市 ) 有 上 月 己 
的 源 系 统 和 ETL 架构 的 单独 的 数据 集 市 ; 有 
一 个 单独 的 主题 和 (与 数据 仓库 相 比 ) 更 少 
的 数据 源 、 更 小 的 规模 、 更 短 的 实现 时 间 以 
及 通常 更 集中 的 关注 点 。 

index (索引 ) 用 于 加 快 在 包含 大 量 记 录 的 关系 表 
中 进行 数据 查询 和 检索 速度 的 数据 库 机 制 . 

indirect interaction (间接 交互 ) 终端 用 户 与 数 
据 库 之 间 通 过 前 端 应 用 程序 进行 的 交互 操作 

information (信息 ) 用 户 出 于 某 种 目的 而 获取 的 

infrastructure as a service, laaS (基础 设施 即 服 
务 ) 基于 网 络 提 供 计 算 机 硬件 作为 一 种 标准 
服务 。 

Inner query ( 内 部 查询 ) 见 nested query- 

INSERT INTO ( SQL) 用 于 向 创建 的 关系 中 填充 





插入 操作 ( Insert operation ) 用 于 向 关系 中 输入 
新 数据 的 数据 库 操作 ， 
插入 异常 ( insertion anomaly) 一 种 更 新 异常 . 
发 生 在 用 户 想 要 插 真实 世界 中 的 实体 
数据 时 ， 还 必须 输入 另 一 个 真实 世界 中 的 实 
体 数 据 的 情况 下 . 
in modification, deletion and retrieval ( 插 
、 修 改 、 删 除 和 检索 ) 终端 用 户 用 于 处 理 
ee 系统 所 包含 数据 的 操作 : 
INTERSECT ( SQL) 用 来 合并 两 个 相 容 的 
SELECT 语句 结果 的 操作 符 ， 合 并 方式 是 列 
所 有 在 这 两 个 SELECT 语句 的 结果 中 邦 出 
现 的 行 ， 
IS NULL ( SQL ) 用 于 包含 
进行 比较 的 查询 
JOIN (SQL) 用 于 帮助 查询 多 个 表 ， 
LEFT OUTER JOIN (SQL) 见 OUTER JOIN 
statement, 
LIKE(SQL) 用 于 检索 部 分 匹配 某 一 标准 的 记录 。 
linear (sequential) search (线性 (顺序 ) 查找 ) 
顺序 地 逐一 匹配 每 一 个 元 素 的 值 ， 直 到 所 要 
查找 的 内 容 被 找到 的 查找 方法 . 
line-item detailed fact table (条 目 级 细节 事实 表 ) 
每 行 表 示 一 个 事务 中 的 一 个 条 目 行 的 事实 表 . 
logical database model / implementational 
database model (逻辑 数据 库 模型 /实施 型 
数据 库 模 型 ) 由 DBMS 软件 实现 的 数据 库 
many-to-many relationship (M : N) (多 对 多 联 
系 ) ER 图 中 两 边 的 最 大 基数 都 为 “多 个 ”的 
market basket analysis ( 购物 篮 分 析 ) 见 associa- 
tion rule mining。 
markup language (标记 语言 ) 用 于 在 文档 中 进 
行文 本 注释 ( 即 “ 标 记 ” ) 的 语言 ， 这 些 注 
释 会 将 各 种 功能 添加 到 文本 中 。 
massively parallel processing, MPP (大 规模 并 行 
处 理 ) 用 大 量 独立 工作 的 计算 机 处 理 硕 以 并 
行 方式 执行 单个 程序 的 方法 。 
master data ( 主 数据 ) 关键 数据 已 经 认证 的 质量 
版 本 ， 这 些 数据 将 为 组 织 机 构 的 信息 系统 所 
供 一 个 共同 的 参考 点 。 
master data management, MDM ( 主 数据 管理 ) 
创建 和 维护 一 批 优质 的 主 数 据 表 ， 并 确保 主 


与 记录 的 列 中 的 空 但 


数据 的 使 用 已 说 入 到 组 织 的 操作 型 信息 和 示 
统 中 ， 

master data registry ( 主 数据 注册 表 ) 包含 一 个 
关键 字 列 表 ， 用 于 连接 及 整合 操作 型 系统 中 
实际 的 主 数据 ; 信息 系统 从 别 的 信息 系 
流 中 访问 主 数 据 ， 用 于 调整 和 补充 本 系统 中 
的 主 数 据 

MAX 见 aggregate function 

maximum cardinality-one or many (最 大 基数 一 
一 个 或 多 个 ) 靠近 实体 答 形 一 端的 基数 约束 
部 分 .表示 该 实体 最 多 可 以 有 多 少 实例 与 为 
一 实体 的 实例 存在 联系 。 

metadata (元 数据 ) 描述 数据 的 结构 和 数据 属性 
的 数据 . 

MIN 见 aggregate function. 

minimum cardinality/participation-optional or 
mandatory (最 小 基数 /参与 -可 选 的 或 强 
制 的 ) 远离 实体 矩 形 一 端的 基数 约束 部 分 ， 
表示 该 实体 至 少 要 有 多 少 实例 与 男 一 实体 的 
实例 存在 联系 

We (SQL) 用 来 合并 两 个 相 容 的 SELECT 声 

名 结果 的 操作 符 ， 合 并 方式 是 列 出 所 有 出 现 

在 第 一 个 SELECT 语句 结果 中 但 不 出 现在 为 
一 个 SELECT 语句 结果 中 的 行 。 

mixed fragmentation (混合 分 片 ) 水 平分 片 与 王 
直 分 片 的 结合 。 

modification a (修改 异常 ) 一 种 更 新 异 
常 ， 发 生 在 用 户 要 修改 某 一 真实 值 时 ， 同 样 
的 修改 操作 需要 重复 多 次 的 情况 下 ， 是 三 种 
类 型 的 更 新 异常 之 一 。 

modify operation (修改 操作 ) 用 来 改变 关系 中 已 

multidimensional database model (多 维 数据 库 
模型 ) 用 于 实现 维度 建 模 数 据 的 模型 ， 在 这 
个 模型 里 数据 库 是 数据 立方 体 的 集合 。 

multidimensional online analytical processing, 
MOLAP (多 维 在 线 分 析 人 处理 ) 数据 存储 在 
多 维 立 方 体 中 的 OLAP 架构 。 

multiuser system (多 用 户 系统 ) 数据 操纵 组 件 
在 同一 时 间 能 直接 或 间接 地 由 多 个 用 户 进行 
使 用 的 数据 库 系 统 。 

multivalued attribute (多 值 属 性 ) 实体 实例 的 同 
一 属性 可 以 有 多 个 不 同 取 值 的 实体 属性 。 

multivalued dependency (多 值 依赖 ) 发 生 在 
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同一 关系 的 多 个 单独 的 列 包 含 不 相关 的 值 ， 
即 同一 关系 表示 基数 大 于 1 的 多 个 单独 联 
系 时 。 

necessary redundancy (必要 的 元 余 ) 指 满足 
3NF 的 关系 表 中 多 次 出 现 的 外 码 值 ， 对 于 连 
接 数据 库 中 的 表 来 说 是 必要 的 . 

nested object ( 柑 套 对 象 ) 发 生 在 一 个 对 象 包含 
在 男 一 个 对 象 中 时 . 

nested query ( 媒 套 查询 ) 包含 在 其 他 查询 里 的 
查询 ， 也 称 为 内 部 查询 ， 

nonkey column ( 非 码 列 ) 关系 中 既 不 是 主 码 也 
不 是 候选 码 的 列 。 

NoSQL database ( NoSQL 数据 库 ) 一 个 广义 
的 术语 ， 描 述 不 基于 关系 模型 且 不 使 用 SQL 
作为 查询 语言 的 数据 库 。 

normal form (范式 ) 表示 一 个 表 需 要 满足 的 一 
组 特定 条 件 (目的 是 减少 数据 元 余 ); 从 较 低 
的 范式 到 较 高 的 范式 ， 范 式 的 条 件 越 来 越 严 
格 ， 宛 余 的 可 能 性 越 来 越 小 。 

normalization (规范 化 ) 用 于 改进 包含 元 余数 据 
的 关系 数据 库 设计 的 过 程 ， 而 包含 元 余 的 关 
系数 据 库 更 容易 发 生 更 新 异常 。 

normalized data warehouse (规范 化 数据 仓库 ) 
使 用 ER 建 模 、 关 系 建 模 和 规范 化 等 传统 的 
数据 库 建 模 技 术 对 数据 仓库 进行 建 模 ， 得 到 
的 规范 化 的 表 的 集合 

NOT ( SQL) 与 条 件 比较 语句 一 起 使 用 ， 当 茶 一 
条 件 为 FALSE 时 返回 布尔 值 TRUE ， 条 件 为 
TRUE 时 返回 布尔 值 FALSE. 

object (对 象 ) 面向 对 象 的 概念 对 应 于 现实 世界 
中 的 一 个 客体 ， 这 一 概念 与 ER 模型 中 的 实 
体 具有 同样 的 意义 : 

object attribute (对 象 属性 ) 描述 对 象 特 性 的 对 
象 元 素 ， 等 价 于 实体 属性 . 

object identifier, OID ( 对 象 标识 ) 对 象 的 标识 符 ， 
其 值 由 OODBS 自动 分 配 且 不 可 改变 。 

object operation ( 对 象 操作 ) 描述 对 象 功能 的 对 

object-oriented database, OODB (面向 对 象 数据 
库 ) 基于 面向 对 象 概念 的 数据 库 。 

object-relational database (面向 对 象 的 关系 型 数 
据 库 ) 包含 面向 对 象 特性 的 关系 型 数据 库 : 

OLAP/BI tool ( OLAP/BI 工具 ) 见 online analyti- 
cal processing (OLAP ) Tool, 


one-to-many relationship, 1 : M (一 对 多 联系 ) 
ER 图 中 一 侧 的 最 大 基数 为 “多 个 `"， 为 一 
侧 为 “一 个 ”的 联系 。 

one-to-one relationship, 1 : 1 (一 对 一 联系 ) ER 
图 中 两 边 的 最 大 基数 均 为 “一 个 ”的 联系 

online analytical processing, OLAP (在 线 分 析 处 
理 ) 对 数据 仓库 或 数据 集 市 进行 以 分 析 为 日 
的 查询 和 数据 呈现 ， 

online analytical processing ( OLAP) Tool (在 线 
分 析 处 理工 具 ) 使 终端 用 户 能 够 对 数据 仓库 
进行 分 析 型 查询 的 工具 . 

online transaction processing, OLTP (在 线 事务 
处 理 ) 对 数据 库 中 的 数据 进行 更 新 ( 即 播 
入 、 修 改 及 删除 )、 查 询 和 以 操作 为 目的 数据 
呈现 等 

operational database (操作 型 数据 库 ) 收集 文 持 
日 常 处 理 中 的 操作 信息 的 数据 库 . 

operational information/transactional information 
(操作 信息 /事务 信息 ) 支撑 商业 和 其 他 组 
织 日 常 操作 需要 所 收集 和 使 用 的 信息 。 

optional attribute ( 可 选 属性 ) 人 允许 没有 取 值 的 实 
体 属性 。 

ORDER BY ( SQL) SELECT 查询 中 用 于 对 查询 
结果 按 一 列 或 多 列 (或 表达 式 ) 进行 排序 的 
3 

OUTER JOIN ( SQL) JOIN 操作 的 变 体 ， 包 括 
LEFT、RIGHT 和 FULL， 用 于 增加 在 一 个 
(被 连接 的 ) 关系 中 不 能 匹配 男 一 个 (被 连 
接 的 ) 关系 的 记录 ， 

outer query (外 部 查询 ) 包含 迭 套 (内 部 ) 查询 
的 查询 。 

overlapping subclass (重合 子 类 ) 有 共同 实例 的 
子 类 实体 (共享 相同 的 超 类 实体 )。 

owner identity ( 主 实体 ) 其 唯一 属性 可 以 用 来 辩 
别 弱 实体 实例 的 实体 . 

parallel database (并 行 数据 库 ) 多 个 计算 机 可 
以 同时 对 同一 数据 集 的 不 同 部 分 实施 同一 个 
任务 并 完成 同样 操作 的 数据 库 。 

partial functional dependency (部 分 函数 依赖 ) 
发 生 在 关系 的 一 列 也 数 依赖 于 主 码 的 一 部 分 
的 情况 下 - 

partial key (部 分 码 ) 弱 实 体 的 一 个 属性 ， 与 主 
实体 的 唯一 属性 结合 起 来 可 以 唯一 标识 该 弱 
实体 的 实例 。 





partial replication ( 部 分 复制 ) 一 种 复制 类 型 . 
对 部 分 数据 实施 多 位 置 点 复制 ， 其 余数 据 不 
复制 。 

partial specialization (部 分 特殊 化 ) 发 生 在 超 类 
实体 的 一 个 或 多 个 实例 并 不 是 其 任何 一 个 于 
类 实体 的 实例 的 情况 下 ， 

pivotrotate (旋转 ) OLAP 操作 的 一 种 ， 通 过 将 
维度 列 的 值 从 一 个 坐标 轴 移 到 男 一 个 坐标 轴 
来 重新 组 织 原始 查询 结果 的 显示 值 。 

platform as a service, PaaS (平台 即 服务 ) 在 网 
络 上 提供 创建 应 用 时 所 需 的 各 种 资源 并 以 此 
作为 标准 的 服务 。 

predictive analytic ( 预测 分 析 ) 利用 以 往 的 数据 
预测 将 来 的 事件 。 

preventive data quality action (数据 质量 预防 措 
施 ) 为 避免 数据 质量 问题 而 采取 的 措施 。 

primary key ( 主 码 ) 关系 的 一 列 (或 一 组 列 )， 其 
值 对 于 每 一 行 是 唯一 的 ; 在 有 多 个 候选 的 情 
况 下 ， 设 计 者 从 中 选择 一 个 作为 主 码 。 

primary key constrain ( 主 码 约束 ) 关系 数据 库 
规则 ， 要 求 每 一 个 关系 必须 有 一 个 主 码 。 

production release (发 行 版 ) 实际 部 署 的 系统 。 

query (查询 ) 数据 检索 表达 式 。 

query cost ( 查询 代价 ) 查询 执行 的 时 间 长 度 。 

query hint ( 查询 提示 ) 覆盖 查询 优化 器 的 默认 行 
为 的 建议 ， 仅 用 于 有 经 验 的 数据 库 管 理 者 的 

query optimization ( 查询 优化 ) 对 同一 查询 任务 
的 多 种 执行 方案 的 检查 ， 以 选取 最 快速 的 查 
询 方 案 。 

query optimizer (查询 优化 器 ) DBMS 的 一 个 特 
性 ， 可 决定 如 何 有 效 地 执行 SQL 语句 。 

read operation ( 读 操 作 ) 用 来 从 关系 中 读 取 数 
据 的 数据 检索 操作 。 

record (记录 ) 关系 中 数据 的 一 行 。 

recovery (恢复 ) 在 失败 后 恢复 数据 库 的 内 容 。 

recovery log (恢复 日 志 ) 将 数据 库 更 新 记录 到 
磁盘 上 的 文件 ， 确 保 即 使 内 存 中 的 数据 更 新 
操作 在 写 人 磁盘 前 丢失 ， 关 于 更 新 的 信息 仍 

redundant data ( 宛 余 数据 ) 同一 数据 的 多 个 实 
例 〈 存 储 在 数据 库 中 )。 

reference object (参照 对 象 ) 发 生 在 一 个 对 象 被 
另 一 对 象 所 参照 的 情况 下 。 


referential integrity constraint ( 参照 完整 性 约束 ) 
数据 库 规 则 ， 要 求 关 系 的 每 一 行 包含 一 个 外 
码 ， 外 码 的 值 要 么 匹配 被 参照 关系 中 主 位 列 
中 的 一 个 值 ， 要 么 为 空 。 

referential integrity constraint line (参照 完整 性 约 
束 连 线 ) 关系 图 中 由 外 码 到 相应 的 主 码 连接 
关系 的 连 线 。 

refresh cycle (刷新 周期 ) 加 载 新 的 数据 到 数据 
仓库 的 频率 。 

refresh load (刷新 加 载 ) 首次 加 载 之 后 的 加 载 . 

related multivalued column (相关 多 值 列 ) 表 中 
表示 同一 真实 世界 概念 (实体) 且 每 条 记录 
有 多 个 取 值 的 列 。 

relation (关系 ) 关系 数据 库 中 的 表 ， 包 含 行 和 列 。 

relation database (关系 数据 库 ) 使 用 关系 数据 
库 模 型 建 模 的 数据 库 ， 是 具有 唯一 名 称 的 相 
互 关 联 的 关系 的 集合 。 

relational DBMS, RDBMS (关系 数据 库 管理 系统 ) 
关系 型 DBMS 软件 ， 基 于 关系 数据 库 模 型 用 
于 实现 关系 数据 库 。 

relation database model (关系 数据 库 模 型 ) 最 
常用 的 罗 辑 数据 库 模 型 ， 用 一 组 相互 关联 的 
关系 表 来 表示 数据 库 。 

relational online analytical processing，ROLAP 
(关系 型 在 线 分 析 处 理 ) 用 关系 表 来 存储 数 
据 的 OLAP 架构 。 

relational schema (关系 模式 ) 关系 数据 库 的 可 
视 化 描述 。 

relation table (关系 表 ) 见 relation。 

relationship (联系 ) 描述 实体 间 如 何 关联 的 ER 
图 构件 。 在 一 个 ER 图 内 ， 每 个 实体 必须 通 
过 该 构件 与 其 他 至 少 一 个 实体 相关 联 。 

relationship attribute (联系 属性 ) 联系 的 属性 ， 
可 用 于 M : N 联系 。 

relationship instance (联系 实例 ) 发 生 在 一 个 实 
体 的 实例 通过 联系 与 另 一 个 实体 的 实例 相关 
联 的 情况 下 。 

relationship role (联系 的 角色 ) 在 ER 图 中 可 用 
来 表达 额外 的 语义 信息 ， 数 据 建 模 者 可 以 目 
行 决定 每 个 实体 在 联系 中 的 角色 。 

report (报表 ) 数据 库 前 端 应 用 组 件 ， 其 目的 是 
以 某 种 格式 化 的 形式 呈现 数据 以 及 来 自 一 张 
或 多 张 表 的 数据 计算 结果 。 


requirements collection, definition, and 





visualization (需求 收集 、 定 义 和 可 视 化 ) 
数据 库 (数据 仓库 ) 开发 过 程 中 的 第 一 步 ， 
也 是 最 为 关键 的 步骤 ; 详细 说 明 数 据 库 ( 数 
据 仓 库 ) 系统 将 要 保存 的 数据 类 型 、 保 存 
方式 、 数 据 库 (数据 仓库 ) 系统 容量 与 功能 
需求 。 

REVOKE (SQL) 用 于 回收 访问 权限 的 语句 

RIGHT OUTER JOIN 见 OUTER JOIN statement 

role-based access control (基于 角色 的 访问 控制 ) 
允许 创建 包含 多 个 用 户 的 组 并 为 这 些 组 分 上 邮 
访问 权限 的 数据 库 访问 控制 方法 . 

ROLLBACK ( SQL) 回 滚 自 最 近 COMMIT 后 的 
所 有 更 新 的 命令 ， 

row ( 行 ) 见 Record 

row indicator ( 行 指 示 符 ) 提供 一 个 快速 标识 符 
的 列 ， 用 来 判断 当前 记录 是 否 有 效 ， 

second normal form，2NF (第 二 范式 ) 如 果 一 
个 表 满 足 INF 且 不 包含 部 分 函数 依赖 ， 则 这 
个 表 满 足 2NF。 

SELECT ( SQL) 使 用 最 频繁 的 SQL 语句 ， 用 于 
从 数据 库 关 系 中 检索 数据 。 

self-JOIN ( 自 连 接 ) 连接 语句 ， 包 含 一 个 参照 其 
本 身 主 码 关系 的 外 码 ， 并 在 查询 中 和 它 日 己 
建立 连接 。 

set operator (集合 运算 ) 并 运算 、 交 运算 和 
差 运 算 ， 用 于 合并 两 条 或 者 多 条 能 相 容 的 
SELECT 语句 所 产生 的 结 采 。 

shared-nothing MPP architecture (无 共享 MPP 
架构 ) 每 个 处 理 器 都 有 自己 的 内 存 与 磁盘 存 
储 器 的 并 行 系统 。 

single-user system ( 单 用 户 系 统 ) 数据 操纵 组 
件 在 同一 时 间 只 能 由 一 个 用 户 使 用 的 数据 库 
系统 。 

slice and dice (切片 和 切 块 ) 从 已 经 显示 的 结 琳 
里 增加 、 替 换 或 者 消除 指定 的 维度 属性 (或 
消除 维度 属性 中 的 指定 值 ) 的 OLAP 操作 。 

slowly changing dimension (缓慢 变化 的 维度 ) 
包含 可 变 属 性 的 维度 。 

snowflake model (雪花 模型 ) 包含 规范 化 维度 
的 星 形 模式 。 

software as a service, SaaS (软件 即 服务 ) 计算 
机 程序 作为 一 种 服务 通过 互联 网 进行 请 求 、 
持 有 和 操作 。 

source system ( 源 系 统 ) 为 数据 仓库 分 析 主 题 
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提供 可 分 析 的 有 用 信息 的 操作 地 数据 库 及 其 
他 数据 集合 - 

SQL data type ( SQL 数据 类 型 ) SQL 中 创建 表 
时 列 的 数据 类 型 - 

SQL standard ( SQL 标准 ) 由 标准 化 组 织 创建 
六 达成 一 致 ， 明 确 了 SQL 的 逻辑 框 肤 和 核 
心 要 素 ， 以 及 如 何 将 SQL 与 其 他 程序 语言 、 
外 部 数据 、 多 媒体 等 联合 使 用 ， 还 包括 其 他 
方面 能 力 的 扩展 。 

SQLXML 将 SQL 和 XML 结合 使 用 的 SQL 扩 
各 

star schema ( 星 形 模式 ) 包含 事实 表 和 维度 的 
模式 。 

structured query language, SQL (结构 化 查询 语 
言 ) 用 来 查询 数据 库 ， 创 建 数据 库 ， 增 加 、 
修改 和 有 删除 数据 库 构 件 ， 以 及 插入 、 删 除 和 
修改 数据 库 记 录 的 语言 ， 

subclass { 子 类 ) 拥有 自己 的 属性 和 操作 并 且 继 
藉 了 鞭 超 类 的 属性 和 操作 的 类 

subclass entity ( 子 类 实体 ) 有 两 类 属性 的 实体 ， 
分 别 为 其 本 身 的 属性 和 从 超 类 实体 继承 的 属 
性 . 所 有 共享 同一 超 类 实体 的 子 类 实体 共享 
从 超 类 实体 继承 的 相同 的 属性 ， 子 类 实体 的 
实例 同时 也 是 其 超 类 实体 的 实例 . 

SUM 见 aggregate function, 

superclass ( 超 类 ) 包含 其 他 类 ( 子 类 ) 的 类 。 

superclass entity ( 超 类 实体 ) 属性 被 其 子 类 实 
体 继承 的 实体 - 

subject-oriented (面向 主题 型 ) 为 分 析 一 个 或 多 
个 具体 商业 主题 领域 而 创建 的 。 

surrogate key (代理 码 ) 为 星 形 模式 的 每 个 维度 
分 配 的 由 系统 生成 的 非 复合 码 。 

table ( 表 ) 见 relation。 

ternary relationship (三 元 联系 ) 涉及 三 个 实体 
的 ER 图 联系 ， 也 称 为 度 为 3 的 联系 。 

Third normal form，3NF (第 三 范式 ) 如 果 一 个 
表 满 足 第 二 范式 且 不 包含 传递 顺 数 依赖 ， 则 
这 个 表 满 足 3NF。 

timeliness (及 时 性 ， 数 据 质量 ) 数据 与 其 所 表 
达 的 真实 世界 在 时 间 维 度 上 的 相符 程度 。 

timestamp (时 间 惟 ) 在 表 中 用 来 说 明 记 录 值 可 
用 的 时 间 区 间 的 列 。 

total specialization (完全 特殊 化 ) 发 生 在 超 类 实 
体 的 所 有 实例 同时 至 少 是 其 一 个 子 类 实体 的 


实例 的 情况 下 。 

Transaction Control Language, TCL (事务 控制 语 
言 ) SQL 语言 的 一 部 分 ， 用 于 各 种 与 数据 
库 维 护 及 管理 相关 的 过 程 。TCL 用 来 管理 数 


据 库 事务 . 
transaction identifier (事务 标识 码 ) 表示 事务 ID 
的 列 。 


transaction time (事务 时 间 ) 表示 事务 时 间 的 列 。 

transaction-level detailed fact table (事务 级 细节 
事实 表 ) 每 行 表 示 某 一 事务 的 事实 表 。 

transitive functional dependency (传递 函数 依赖 ) 
发 生 在 非 码 列 晒 数 确定 关系 中 的 其 他 非 码 列 
的 情况 下 。 

trigger ( 触发 器 ) 使 用 SQL 写成 的 规则 ， 在 关系 
中 删除 、 插 入 、 修 改 (更 新 ) 记录 时 被 激活 。 

trivial functional dependency (平凡 函数 依赖 ) 
发 生 在 一 个 属性 (或 属性 集 ) 上 晒 数 确定 它 目 
己 或 它 的 子 集 的 情况 下 。 

tuple (元 组 ) 见 row: 

Type1 approach ( Type1 方法) 基于 重 写 维度 的 
记录 值 来 处 理 缓慢 变化 维度 的 方法 ， 最 常用 
于 由 于 错误 而 导致 维度 变化 的 情况 。 

Type2 approach ( Type2 方 法) 在 需要 保存 历 
忠信 息 时 所 使 用 的 处 理 缓慢 变化 维度 的 方 
法 。 每 当 维 度 中 的 记录 值 发 生变 化 时 ， 它 将 
使 用 新 的 值 为 代理 码 创 建 一 个 额外 的 维度 
记录 。 

Type3 approach ( Type3 方法 ) 当 维 度 中 每 列 
可 能 发 生 改 变 的 数量 是 确定 的 ， 或 者 只 对 有 
限 的 历史 进行 记录 时 ， 用 来 处 理 缓慢 变化 维 
度 的 方法 。 它 为 维度 表 中 每 个 发 生 改 变 的 
列 创建 一 个 “历史 值 ” 列 以 及 一 个 “当前 
值 ” 列 。 

unary relationship/recursive relationship (一 元 联 
系 /递归 联系 ) ER 图 中 只 涉及 一 个 实体 自 
身 的 联系 ， 也 称 为 度 为 1 的 联系 。 

unauthorized malicious data update ( 非 授 权 的 
恶意 数据 更 新 ) 在 数据 录入 期 间 由 于 恶意 的 
企图 而 导致 的 数据 库 误 用 。 

UNION ( SQL) 用 来 合并 两 个 相 容 的 SELECT 
语句 结果 的 操作 符 ， 合 并 方式 是 列 出 所 有 出 
自 第 一 个 SELECT 语句 结果 的 行 和 画 一 个 
SELECT 语句 结果 的 行 ， 如 果 有 两 行 或 多 行 
相同 ,将 只 显示 其 中 的 一 行 (从 结果 中 删除 


重复 的 行 )。 

unique attribute (唯一 属性 ) 对 于 每 个 实体 实例 
取 值 都 不 相同 的 实体 属性 。 

uniqueness (唯一 性 ) (数据 质量 ) 要 求 每 一 真实 
实例 在 数据 收集 时 只 能 被 描述 一 次 。 

update anomaly (更 新 异常 ) 由 更 新 操作 引起 的 
使 关系 中 包含 元 余数 据 的 异常 。 见 Deletion 
anomaly 、Insertion anomaly 和 Modification 
anomaljy - 

update cascade (级 联 更 新 ) 参照 完整 性 约束 选 
项 ， 如 果 记 录 的 主 码 值 被 另 一 个 关系 中 记录 
的 外 码 值 参照 ， 则 允许 该 记录 的 主 码 值 被 修 
改 。 所 有 参照 被 修改 记录 主 码 值 的 记录 的 外 
码 值 也 会 被 修改 。 

update failure (更 新 失效 ) 在 更 新 操作 期 间 的 数 
据 库 系统 失效 。 

update operation (更 新 操作 ) 用 于 更 新 关系 中 
数据 内 容 的 三 个 操作 ， 见 delete operation、 
insert operation 和 modify operation 。 

update restrict ( 限制 更 新 ) 参照 完整 性 约束 选 
项 ， 如 果 记 录 的 主 码 值 被 另 一 个 关系 中 记录 
的 外 码 值 参照 ， 则 不 允许 该 记录 主人 码 值 被 
修改 ， 

update set-to-default (更 新 设置 为 默认 值 ) 参照 
完整 性 约束 选项 ， 如 果 记 录 的 主 码 值 被 为 一 
个 关系 中 记录 的 外 码 值 参 照 ， 则 允许 该 记录 
的 主 码 值 被 修改 。 所 有 外 码 值 参照 被 更 新 记 
录 的 主 码 值 的 记录 ， 其 外 码 值 将 会 被 设置 为 
默认 值 。 

updateset-to-null (更 新 设置 为 空 ) 参照 完整 性 
约束 选项 ， 如 果 记 录 的 主 码 值 被 男 一 个 关系 
中 记录 的 外 码 值 参照 ， 则 允许 该 记录 的 主 码 
值 被 修改 。 所 有 外 码 值 参 照 被 更 新 记录 的 主 
码 值 的 记录 ， 其 外 码 值 将 会 被 设置 为 空 。 

UPDATE ( SQL) 用 来 修改 存储 在 数据 库 表 中 的 

user-defined constraint ( 用 户 自 定义 约束 ) 由 数 
据 库 设计 者 添加 的 数据 库 约 束 。 

user-defined type, UDT (用 户 自 定义 类 型 ) 用 
户 创建 的 类 ， 在 另 一 个 类 中 作为 数据 类 型 
使 用 。 

vertical fragmentation ( 垂直 分 片 ) 数据 表 的 列 
的 子 集 存 于 DDBS 不 同 的 位 置 点 中 的 分 片 。 

view (视图 ) 人 允许 查询 保存 在 RDBMS 中 的 SQL 
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机 制 ， 也 称 为 虚 表 。 被 调用 时 ， 视 图 显示 的 write operations ( 写 操作 ) 见 update operation。 


是 已 保存 的 查询 结果 的 表 。 XML path language, XPath ( XML 路 径 语言 ) 使 
view materialization (视图 物化 ) 将 视图 保存 在 用 XML 文档 树 状 表达 式 的 语言 ， 允 许 用 户 
一 个 实际 的 物理 表 中 .: 遍历 树 。XPath 表达 式 从 树 中 返回 一 个 元 素 
week entity ( 弱 实体 ) 用 于 描述 本 身 没有 唯一 属 节点 集 ， 这 些 元 素 节点 能 满足 表达 式 所 指定 
性 的 实体 的 数据 库 构 件 的 模式 。 


WHERE ( SQL) 确定 哪些 行 应 该 被 返回 以 及 哪 XQuery 具备 XML 文档 查询 功能 的 语言 ， 就 像 
些 行 不 应 该 被 返回 SQL 提供 了 对 关系 表 的 查询 功能 一 样 。 


过 
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197，199，201s 
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aggregate function (聚集 果 数 )，139 
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354 
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defined (定义 )，14 
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backup (备份 )，302 
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big data (大 数据 ) 356-359 
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160 
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class instance (类 的 实例 )，330 

cloud computing ( 云 计算 )，340-342 

column ( 列 )，57-58，87 

COMMIT (提交 )，307 

complete mirrored backup (完全 镜像 备份 )，307 
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197-199，201 

composite attribute (复合 属性 )，22-24、50，60- 
61，87 
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composite primary key (复合 主 码 )，61，75 
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24，S0，87 
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197-20] 
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consistency ( data quality) (一 致 性 (数据 质量))， 
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constraint management (约束 管理 )，160-163，173 

coirective data quality action (数据 质量 校正 措施 )， 
200-202 

correlated subquery【〈 柏 关子 查询 )，166 

COUNT (计数 )，139-140 

CREATE ASSERTION (创建 断言 )，202-203 

CREATE TABLE {创建 表 )，129-131，157-160， 
166 

CREATE TRIGGER (创建 触发 器 )，203 

CREATE VIEW (创建 视图 )，154-155 

cube {立方 体 )，254-255，293-295 
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data (数据 )，1-2，207 
data audience (数据 读者 )，210 
data cleansing (数据 清洗 )，279 
data control language, DCL (数据 控制 语言 )，127- 
128 
data custodian (数据 管理 者 )，326 
data definition language, DDL (数据 定义 语言 ) 
]27-128 
data dictionary (数据 字典 )，303-304 
data duplication (数据 重复 )，198 
data governance (数据 管理 )，326 
data manipulation language, DML (数据 操纵 语言 )， 
127-128 
data mart (数据 集 市 ) 
category (类 别 )，216，217 
data modeling (数据 建 模 )，255，263-264 
defined (定义 )，216 
front-end ( BI) application (前 端 (BI) 应 用 )， 
289 
property (属性 )，217 
data mining (数据 挖 拨 )，343 
data orientation (数据 定位 )，210 
data quality (数据 质量 )，197-202 
data redundancy (数据 元 余 )，210 
data replication (数据 复制 )，339 
data scrubbing (数据 清理 )、279 
data steward (数据 专员 )，326 


data time-horizon (数据 时 间 汇 围 )，208 
data warehouse (数据 仓库 ) 
component (组 件 )，214-216 
creating ( 创建)，273-274 
defined (定义 )，207，212 
definition (定义 )，212-214 
front-end ( B1) application (前 并 (BI) 应 用 小， 
218-221，289-292 
steps in development (开发 步骤 )，217-222 
data warehouse/data mart modeling (数据 仓库 / 数 
据 集 市 建 模 ) 
defined (定义 )、220 


dimensionally modeled (维度 建 模 )，255，259- 
200 

independent data mart (独立 数据 集 市 )，255.、 
2063-204 


modeling step ( 建 模 步 又 )，218-220 
normalized approach ( 规 江 化 方法 )，2S5-259 
data warehouse deployment ( 数据 仓库 部 署 )，218- 
219，、221，292-293 
database (数据 库 )，1-4 
database administration (数据 库 管理 ) 
backup/recovery (备份 /恢复 )，306 
DBMS component (DBMS 组 件 )，301-302 
development steps (开发 步骤 )，4-5，7 
monitoring/maintenance task (监测 /维护 任务 )， 
302-304 
new version (新 版 本 )，8 
overview (概述 )，302，305-306 
security (安全 )，302，305-306 
database administrator(DBA)( 数 据 库 管 理 员 ) 
role (角色 )，8-9 
task (任务 )，302-303 
database analyst ( 数据 库 分 析 者 )，8 
database architect (数据 库 架 构 师 )，8-9 
database as a service, DaaS (数据 库 即 服务 )，341 
database deployment (数据库 部 蓝 ) 
deployment step (部 蓝 步 对 )，4-5，7 
new version ( 新 版 本 )，8 
database designer (数据 库 设 计 者 )，8-9 
database developer (数据 库 开 发 者 )，8-9 
database end user (数据 库 终 靖 用 户 )，8-9 
database fragmentation (数据 库 分 片 )，337 
database implementation (数据 库 实 现 )，4-8，177 


database integrity (数据 库 完 整 性 )，302，307 
database management system, DBMS (数据 库 管 理 
application generation component( 应 用 开发 组 
件 )，301-302 
component (组 件 )，301-302 
data definition component ( 数据 定义 组 件 )，301 
data manipulation component (数据 操作 组 件 )， 
301-302 
database administration component (数据 库 管 理 
组 件 )，301-302 
defined (定义 )，2-3 
relational dbms, RDBMS (关系 数据 管理 系统 )， 
Qs 57 
database metadata (数据 库 元 数据 )，2 
database modeler (数据 库 建 模 者 )，8-9 
database modeling (数据 库 建 模 ) 
defined (定义 ). 6 
development step (开发 步 号 ) 4-6 
new version (新 版 本 )，8 
database performance optimization (数据 库 性 能 优 
化 )，302、307-308 
database policies and standards (数据 库 政 策 与 标 
准 )，302，307-308 
database requirements (数据 库 硬 求 ) 
defined (和 定义)，13 
development step (开发 步 驼 ) 4-6 
new version (新 版 本 )，8 
visualized as an ER model (可 视 化 为 ER 模型 )， 
15-24, 26-32，35-38 
database scope (数据 库 使 用 范围 )，8 
database system (数据 库 系 统 )，3-11 
database use (数据 库 使 用 ) 
development step (开发 步 又 )，4-5，7 
new version (新 版 本 )，8 
DATE, 170 
decryption key (解密 密 钥 )，306 
degenerate dimension (退化 维度 )，237 
degree of a relationship (联系 的 度 )，28-29 
DELETE (删除 )，128，154 
DELETE CASCADE (级 联 删除 )，179-180 
delete restrict (限制 删除 )，178-179 
delete set-to-default (删除 设置 为 默认 值 )，183-184 
delete set-to-null (删除 设置 为 空 )，180 


deletion anomaly (删除 异常 )，93，95-96 
Deletion, delete operation〔 删 除 操作 )，7，91-92 
denormalization ( 逆 规 范 化 )，116 
dependent data mart ( 非 独 立 数 据 集 市 )，217 
derived attribute (派生 属性 )，25-26，350，87 
DESG: 138 
designer-added entity (设计 者 添加 的 实体 )，117- 
119 
designer-added key〈 设 计 者 添加 的 但 )，117，119 
designer-created primary key (设计 者 创建 的 主 码 )， 
84-85 
detailed data (细节 数据 )，214 
detailed fact table (细节 事实 表 )，243-245，248 
difference ( 差 )，155 
dimension table (维度 表 )，225-226 
dimensional model (维度 模型 ) 
aggregated fact table (聚集 事实 表 )，245-248 
defined (定义 )，225 
detailed fact table (细节 事实 表 )，243-245 
dimension table (维度 表 )，225 
and ER modeling (与 ER 建 模 )，264 
fact table (事实 表 )，225-226 
granularity of the fact table (事实 表 的 粒度 )， 
248-249 
line-item fact table (条 目 级 细节 事实 表 )，249 
multiple fact tables (多 个 事实 表 ) 240-241 
multiple sources (多 个 源 )，231-233 
OLAP/BI tool (OLAP/BI 工具 )，281 
single source (单个 源 )，226-229 
slowly-changing dimension (缓慢 变化 的 维度 )， 
250-253 
snowflake model (雪花 模型 )，254 
table type〈 表 的 类 型 )，225-226 
transaction identifier in fact table(〈 事 务 标识 码 )， 


235-237 
transaction -level fact table (事务 级 细节 事实 表 )， 
249-250 


transaction time in fact table (事实 表 中 的 事务 时 
” 回 )，237-239 
dimensionally modeled data warehouse (维度 建 模 
的 数据 仓库 )，259-262 
direct interaction ( 直接 交互 )，3 
disjointed subclass ( 非 连接 子 类 ) 
partial specialization ( 部 分 特殊 化 )，315-316 
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total specialization (完全 特殊 化 )，312-315 
DISTINCT (去 重 )，137-138 
distributed database system, DDBS (分 布 式 数据 库 
系统 ) 
basic description (基本 描述 )，336-337 
data replication (数据 复制 )，339-340 
database fragmentation (数据 库 分 片 )，337-339 
federated database (联合 数据 库 )，340 
distribution transparency (分 布 透明 性 )，336 
domain constraint ( 域 约束 )，79，87 
domain key normal form, DKNF( 域 键 范 式 (DKNF ) )， 
322 
drill down (下 钻 )，286-287 
drill hierarchy ( 钼 层次 结构 )，287 
drill up〈《 上 卷 )，286-287 
DROP TABLE (删除 表 )，131-132，163 
DROP VIEW (删除 视图 )，155 
durability (ACID property )( 持 久 性 (ACID 特性 )), 
354 


encryption (加 密 )，306 
encryption key (加 密 密 钥 )，306 
end user ( 终端 用 户 )，3 
enhanced ER, EER (扩展 的 ER 模型 ) 
defined (定义 ) 40，311 
notation ( 符号)，311 
subclass entity ( 子 类 实体 )，311-316 
superclass entity ( 超 子 类 实体 )，311-316 
enterprise resources planning ( ERP ) system (企业 
资源 计划 (ERP) 系统 )，323-325 
enterprise-wide data (企业 范围 的 数据 )，213 
entity (实体 ) 
associative (关联 )，43-45 
attribute (属性 )，14，50 
defined (定义 )，13-14 
ERD, 13 
mapping into relational model ( 映射 到 关系 模型 )， 
$9-60 
naming convention (命名 约定 )，33 
entity instance ( member) (实体 实例 (实体 成 员 ) )， 


14，18 
entity integrity constraint (实体 完整 性 约束 )，62- 
63，87 
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entity-relationship (ER ) modeling (实体 - 关系 (ER ) 
建 模 )，5-6，13 
entity type 实体 类 型 )、14 
equivalent functional dependency (等 价 函 数 依赖 )， 
100-101 
ER modeling (ER 建 模 ) 
advantages of (优势 )，86 
attribute ( 属性)，14，22-27 
cardinality constraint (基数 约束 )，15-17 
construct (构件 )，13 
and data warehouse/mart technique (与 数据 仓库 / 
数据 集 市 技术 )，264-265 
ER diagram，ERD (ER 图 )，21-22，35-36，117 
exact cardinality (确切 的 技 基数 )，27-28 
mapping ER diagrams into relational schema ( ER 
图 映射 到 关系 模式 )，60-78，83-84 
multiple diagrams (多 个 图 )，33-35 
multiple relationships (多 种 联系 )，30 
naming convention (命名 约定 )，33 
and normalization (与 规范 化 )，116-117 
notation (符号 体系 )，13。，39 
relationship role (联系 的 角色 )，29-30 
relationship ( 联系 )，15-20，27-30，40-49 
ER notation (ER 符号 体系 ) 
selection of (选择 )，13 
variation ( 变 体 )，39 
cxact maximum cardinality (最 大 基数 的 确切 值 )， 
27-28 
exact minimum cardinality (最 小 基数 的 确切 值 )， 
27-28 
exXcept(〈 差 )，155 
executive dashboard (管理 展示 板 )，292 
EXISTS statement (存在 语句 )，166-167 
extensible markup language (扩展 的 标记 语言 )， 见 
XML 
extensible stylesheet language (可 扩展 样式 语言 )， 
见 XSL 
extraction-transformation-load，ETL (提取 一 转换 - 
加 载 ) 
creating infrastructure (创建 架构 )，218-220 
and data warehouse (与 数据 仓库 )，214-216 
ETL process (ETL 过 程 )，275-280 


F 
fact table (事实 表 ) 


additional attribute (额外 的 属性 )，234-235 
aggregated data (聚集 数据 )，243 
characteristic (特性 )，229-230 
detailed data (细节 数据 )，243 
and dimensional modeling (与 维度 建 模 )，225-226 
granularity of ( 的 粒度 )，248-249 
line-item (条 目 级 )，249 
multiple subjects (多 主题 )，240 
transaction-level (事务 级 )，249 
federated database (联合 数据 库 )，340 
field ( 域 )，57 
first load〈 首 次 加 载 )，280 
first normal form, INF (第 一 范式 )，104-107 
foreign key (外 码 ) 
| : 1 mapping (一 对 一 映射 )，68-69 
1 : M mapping (一 对 多 映射 )，64-66 
defined (定义 )，63，87 
M : N relationship mapping (多 对 多 关系 映射 )， 


606-68 
referential integrity constraint (参照 完整 性 约束 )， 
69, 177 


renaming ( 重 命名 )，66 
SQL syntax (SQL 语法 )，131，170 
unary relationships mapping (一 元 关系 映射 )， 
74-76 
form (表格 )，192-196 
fourth normal form，4NF (第 四 范式 )，321-322 
front-end application analyst (前 端 应 用 程序 分 析 
者 )，8-9 
front-end application developer ( 新 端 应 用 程序 开发 
者 )，8-9 
front-end application development (前 端 应 用 程序 
开发 ) 
development step (开发 步骤 )，4-5，7 
(new version 新 版 本 )，8 
front-end application (前 端 应 用 程序 )，3，192- 
197，214，288 
front-end (BI) application (前 端 (BI) 应 用 )，289- 
292 
full key functional dependency (完全 也 数 依赖 ), 
101-102，31 
FULL OUTER JOIN (完全 外 连接 )，164-166，172 
fully replicated distributed database (完全 复制 分 布 
式 数据 库 )，339 


functional dependency( 消 数 依赖 ) 

augmented functional dependency (扩展 晒 数 依 
赖 )，100 

candidate key(〈 候 选 码 )，317 

defined (定义 )，97 

equivalent functional dependencX 等 价 函 数 依 赖 )， 
100-101 

full key functional dependency (完全 函数 依赖 )， 

101-102，317 

partial functional dependency (部 分 因数 依 顿 )， 
101-102，107，317-318 

transitive functional dependency (传递 晴 数 依赖 )， 
101-102，108，318-319 

trivial functional dependency (平凡 明 数 依赖 )， 
99-100 

set of (的 集合 )，98-101，103-104 

streamlined set (简化 后 的 集合 )，101 


G 


galaxy of stars (星系 )，242 
GRANT (授权 )，305，306 
granularity (fact table)( 事 实 表 粒度 )，248-249 
GROUP BY (分 组 ) 
aggregate function 《聚集 晒 数 )，140-144 
and HAVING (与 having)，144-145 
SQL syntax (SQL 语法 )，173-174 


H 


HAVING, 144-146 

heterogeneous DDBS ( 异 构 型 DDBS)，336 

historical data (历史 数据 )，213 

homogeneous DDBS ( 同 构 型 DDBS ) 

horizontal fragmentation (水 平分 片 )，337-338 

horizontal scalability (水 平 扩展 )，354 

hybridapproach (MDM)( 混 合 方法 )，327-329 

hybrid online analytical processing ( HOLAP ) 
architecture (混合 型 在 线 分 析 处 理 结构 )， 
297 

hypertext markup language, HTML ( 超 文本 标记 语 
言 )，346 


IBM DB2 
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RDMS (关系 型 数据 库 管 理 系 统 )，10，57，127 
SQL syntax (SQL 语法 )，171-172 
identifier (标识 符 )、14 
identifying relationship (标识 性 联系 )，30，32 
implementational database model (实施 型 数据 库 模 
型 )，6 
implicit constrain( 隐 含 约束 )，78-79 
IN, 147 
independent data mart (独立 数据 集 市 )，216-217 
indexing (索引 )，187-192 
indirect interaction (间接 交互 )，3-4 
information (信息 ) 
analytical (分 析 型 )，10，207-208 
database system (数据 库 系 统 )，9 
defined (定义 )，1-2 
operational (操作 型 )，10，207 
information system (信息 系统 )，3 
infrastructure as a service, IaaS (基础 设施 即 服务 )， 
341 
Inmon, Bill, 255 
inner query (内 部 查询 )，146 
INSERT INTO (插入 )，128，132-133，153，160， 
162 
insertion anomaly (搬入 异常 )，93，95-96 
insertion (insert operation)( 插 入 操作 )，7，91-92 
INT, 128 
integrated data (聚集 数据 )，213 
interface (接口 )，7 
international organization for standardization, [SO 
(国际 标准 化 组 织 )，169 
intersection ( 交 )，155-15S6 
INVTERVAL, 170 
IS NULL, 166, 177 
isolation ( ACID property) (隔离 性 (ACID 特性 ) )， 
354 
iterative requirement phase (迭代 的 需求 阶段 )，5-6 


J 


JOIN (连接 )，148-153，163-166 


K 


key attribute ( 主 属性 )，14 
Kimball, Ralph, 259 
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LEFT OUTER JOIN ( 左 外 连接 )，164-165，172 
level-of-detail (细节 层次 )，208-209 


LIKE, 139 
line-item detailed fact table (条 目 级 细节 事实 表 )， 
249 


linear (sequential) search (线性 (顺序 ) 查找 小， 
187-189，191 

logical database modeling (逻辑 数据 库 模 型 )，4-6， 
SY 


M 


maintenance (维护 )，302 
mandatory participation (强制 参与 )，15，64 
many (cardinality)( 多 (基数 ))，15-18 
many-to-many relationship (M : N)( 多 对 多 联系 )， 
40-42，44-45，66-08 ，73 
map (映射 )，57-58 
mapping ( ER to relational model) (映射 (ER 图 到 
关系 模型 ) ) 
1 : 1 relationships (一 对 一 关系 )，68-69 
1 : 1 unary relationships (一 对 一 一 元 关系 )，76 
1 : M relationships (一 对 多 关系 )，64-66 
associative entitie (关联 实体 )，83 
attribute ( 属性 )，74 
composite attribute ( 复合 属性 )，73 
defined (定义 )，57 
derived attribute (派生 属性 )，73 
entity (实体 )，59-60 
entity with candidate attribute ( 带 候选 码 的 实体 )， 
71-72 
ER diagram (ER 图 )，78 
M : N relationship (多 对 多 关系 )，66-68 
M : N unary relationship (多 对 多 一 元 关系 )，75 
multiple relationships (多 元 关系 )，76 
multivalued attribute (多 值 属性 )，72-73 
optional attributes( 可 选 参与 )，62 
optional attributes (可 选 属性 )，65 
optional participation( 串 选 参与 )，65 
rule (规则 )，87-88 
ternary relationship ( 二 元 关系 )，84 
unary relationship (一 元 类 系 )，74-75 
unique composite attribute (唯一 复合 属性 )，61 


weak entity ( 弱 实 体 )，77-78 
MapReduce, 356-359 
market basket analysis (购物 篮 分 析 )，343 
markup language (标记 堵 言 ) 
defined (定义 )，346 
HTML, 346 
XML, 346-347 
massively parallel processing, MPP (大 规模 并 行 处 
理 )，340 
master data ( 主 数据 )，326 
master data management, MDM ( 主 数据 管理 ) 
architecture (架构 )，327-329 
data governance (数据 管理 )，326-327 
master data registry ( 主 数 据 注 册 表 )，327-328 
max ( 求 最 大 值 )，139-140 
maximum cardinality (最 大 基数 )，15，17 
metadata (元 数据 )，2 
Microsoft access, $7, 185 
Microsoft SQL server 
RDBMS software (关系 型 数据 库 管理 系统 软件 )， 
0 STs 2d 
SQL syntax (SQL 语法 )，170-173 
min ( 求 最 小 值 )，、139-140 
minimum cardinality (最 小 基数 / 参与 )，15 
minus ( 差 )，155-157 
mixed fragmentation (混合 分 片 )，339 
modification anomaly (修改 异常 )，93，96-97 
modification (modify operation)( 修改 (修改 操作 )) 
monitoring (监测 )，302 
multidimensional database model( 多 维 数据 库 模 型 )， 
293-295 
multidimensional online analytical process (MOLAP) 
architecture (多 维 在 线 分 析 处 理 结构 )， 
295-2906 
multiple instance (多 实例 )，40-42 
multiple relationship (多 关系 ) 
ERD, 30 
mapping (映射 )，76 
multiple unique attributes (多 个 唯一 属性 )，25， 
3ls32 0, Bt 
multiuser system (多 用 户 系 统 )，302 
multivalued attribute (多 值 属 性 )，25，31-32，50， 
87 
MySQL 
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RDBMS software (关系 数据 库 管理 系统 软件 )， 
IO. $7 1127 
SQL syntax (SQL 语法 )，170-172，174 


N 


necessary redundancy (必要 的 元 余 )，111 

nested object ( 拒 套 对 象 )，332 

nested query ( 钳 套 查询 )，146 

nonkey column ( 非 码 列 )，104 

normalization (规范 化 ) 
1NF (first normal form)( 第 一 范式 )，104-107 
2NF ( second normal form) (第 二 范式 )，104.， 


107-108 
3 NF ( second normal form) (第 三 范式 )，104， 
109 


4 NF (fourth normal form)( 第 四 范式 )，321-322 
5 NF (fifth normal form)( 第 五 范式 )，322 
BDNF ( Boyce-Code normal form) (BC 范式 ), 
319-321 
candidates key (候选 码 )，317-318 
DKNF (domain key normal form) (DK 汇 式 ), 
区 队 打 。 
example (例子 )，108-113，317-322 
functional dependency (了 昂 数 依赖 )，101-102 
normal form (范式 )，104 
relational database (关系 数据 库 )，91 
normalized data warehouse (规范 化 的 数据 仓库 ) 
NoSQL database (NoSQL 数据 库 )，353-355 
NOT ( 非 )，167 
NUMERIC, 128 


O 


object (对 象 ) 
object attribute ( 对象 属性 )，330 
object identifier (OID)( 对 象 标识 )，330 
object operation (对象 操作 )，330 
object query language, OQL (对 象 查询 语言 )，334 
object-oriented database, OODB ( 面向 对 象 数据 库 )， 
330-333 
object-oriented query ( 面 问 对 象 查询 )，334-335 
object-relational database, ORDB ( 对象 关系 型 数据 
库 )，335 
one (cardinality) (一 (基数 ))，15，17-18，64-66， 
68-69，75-76 


online analytical processing, OLAP 在线 分 析 人 处 理 ) 
ad-hoc direct analysis (特定 的 直接 分 析 )，288- 
289 
category (种 类 )，295-297 
defined (定义 )，280-281 
front-end application (终端 应 用 )，288-289 
online analytical processing ( OLAP) tools (在 线 分 
析 处 理工 具 ) 
defined (定义 )，281 
drill up/drill down (上 卷 / 下 人 钻 )，286-287 
functionality (功能 )，282 
functionality note (功能 概述 )，288 
pivot (rotate )( 旋 转 )，285-286 
slice and dice (切片 和 切 块 )，282-285 
online transaction processing, OLTP ( 在 线 事务 处 
理 )，280-281 
operational database (操作 型 数据 库 ) 
defined (定义 )，10 
modeling construct ( 建 模 构件 )，13-49 
operational information (操作 信息 )，10，207 
operational versus analytical information (操作 型 与 
分 析 型 信息 ) 
data audience difference (数据 读者 差别 )，210 
data makeup difference (数据 构成 差别 )，208 
data orientation difference (数据 导 回 差别 )，210 
data redundancy difference (数据 元 余 差别 )，210 
data time-horizon difference (数据 时 间 范 围 差 别 )， 
208 
data time-representation difference (数据 时 间 表 
示 差 别 )，209 
data update difference (数据 更 新 差别 )，210 
functional differences (功能 差别 )，210 
query amounts/frequency (查询 总 量 / 频 度 )，209 
technical difference (技术 差别 )，209 
optional attribute (可 选 属 性 )，26，50，87 
optional participation (可 选 参 与 )，15-16，65 
Oracle 
RDBMs (关系 数据 库 管 理 系 统 )，10，57，127 
SQL syntax (SQL 语法 )，170-173 
ORDER BY, 138-139 
OUTER JOIN (外 连接 )，164 
outer query (外 部 查询 )，146 
overlapping subclass (重合 子 类 )，314 
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owner identity ( 主 实体 )，30 
P 


page axis (页 币 )，286 
paraliel database (并 行 数据 库 )，340 


partial functional dependency (部 分 隐 数 依赖 )， 


101-102. 107, 317-318 
partial key (部 分 但 )，31 
partial replication (部 分 复制 )，339 
partial specialization (部 分 特殊 化 )，315 
pivotrotate (旋转 )，282，285-286 
platform as a service, PaaS (平台 即 服务 )，341 
PostgreSQL 


RDBMS software (关系 数据 库 管 理 系统 软件 )， 


10. S57. 127 
SQL svntax (SQL 语法 )，170-172 
predictive analytic 【预测 分 析 )，343 


preventive data guality action (数据 质 最 预防 措施 )， 


200 
primary key (主公 ) 
i : 1 mapping (一 对 一 映射 )，64-66 
candidate key (候选 码 )、317 
defined (定义 )，59 
entity integrity constraint (实体 完整 性 约束 )，62 


M : N relationship mapping (多 对 多 关系 映射 ). 


60-68 
and OID (与 OID), 330-331 


referential integrity constraint ( 参 腿 完整 性 约束 )， 


09, 177 
SQL syntax ( SQL 语法 )，131 


unary relationships mapping (一 元 关系 映射 ). 


74-76 
primary key constrain ( 主 码 约束 )，79，87 
production release (发 行 版 )，293 


Q 


query (查询 ) 
OODB (面向 对 象 数据 库 )，334 
relational database (关系 数据 )，334 
SQL, 134-152. 156-157, 163-168 
XML ，348 

query cost (查询 代价 )，308 

query hint (查询 提示 )，308 

query optimization (查询 优化 )，308 


R 


reading (read operation)( 该 操作 )，91 
record (记录 )，57 
recovery (恢复 )，302，306-307 
recovery log (恢复 日 志 )，306-307 
recursive relationship (递归 关系 )，28，87 
redundant data (元 余数 据 )，91 
reference object (参照 对 象 )，333 
referential integrity constraint (参照 完整 性 约束) 
defined (定义 )，177-181 
delete operation (删除 操作 )，178-181 
implicit constraint (隐藏 约束 )，79 
rule ( 规则 )，69 
SQL code (SQL 代码 )，184 
update operation (更 新 操作 )，178，181-184 
referential integrity constraint line (参照 完整 性 约束 
连 线 )，69 
refresh cycle (刷新 周期 )，280 
refresh load (刷新 加 载 )，280 
related multivalued column (相关 多 值 列 )，105 
relation ( 关系) 
mapping (映射 )，59-60 
relational database model (关系 数据 库 模 型 )，57 
user-defined constraint (用 户 自 定义 约束 )，78， 
81-83 
relational database (关系 型 数据 库 ) 
basic concept (基本 概念 )，57 
common type (通用 型 )，37 
constraint (约束 )，78-79，81，87 
database model (数据 库 模 型 )，6 
following ER modeling , 85-86 
implicit constraint ( 隐 式 约束 )，78-79 
software package (软件 包 )，10 
terminology (术语 )，57-58 
update operation (更 新 操作 )，91 
user-defined constraint (用 户 定 义 约束 )，78,81-83 
relational online analytical processing, ROLAP ( 关 
系 型 在 线 分 析 处 理 )，296-297 
relational schema (关系 模式 ) 
defined (定义 )，57 
mapping ER diagram (映射 ER 图 )，78 
mapping relationships (映射 关系 )，63-64 
relation table (关系 表 )，57-58 
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relationship (联系 ) 
attribute ( 属性 )，19-20 
cardinality constrain (基数 约束 )，15-17 
degree ( 度 )，28-29 
R13 13 
identifying (标识 性 )，30 
M : N (多 对 多 )，17-18，40-42，75 
naming convention (命名 约定 )，33 
1 : M (一 对 多 )，17-18，64-6$，74 
lw t= T1872 
ternary〈 三 元 )，45-49 
relationship instance (联系 实例 ) 
defined (定义 )，8-19 
multiple (多 )，40-42 
relationship role (联系 的 角色 )，29-30 
relationship type (联系 的 类 型 )，15 
repeating group (里 复 的 组 )，105 


requirement ( 需求 ) 


data warehouse requirements collection, definition, 


visualization (数据 仓库 需求 的 收集 、 定 义 
和 可 视 化 )，218-220 
database requirements collection, definition, 

visualization (数据 库 需 求 收集 、 定 义 和 可 
视 化 )，4-6，8 

retrieval (检索 )，7 

REVOKE (撤销 权限 )，305-306 

RIGHT OUTER JOIN ( 右 外 连接 )，164-165，172 

role-based access control system (基于 角色 的 访问 
控制 系统 )，306 

ROLLBACK ( 回 深 )，307 

rotate (pivot)( 旋转 )，282 

row ( 行 )，$7，58 

row indicator ( 行 指 示 符 )，252 


S 


srubbing (清理 )，279 

second normal form, 2NF (第 二 范式 )，104，107-108 

security (安全 )，302，305 

SELECT (选择 )，128，134-152，154，156-157， 
163-168 

self-JOIN ( 自 连 接 )，163-164 

set operator (集合 运算 )，172 

shared-nothing MPP architecture (无 共享 MPP 架 
构 )，340 


single-user system ( 单 用 户 系统 )，302 
slice and dice (切片 和 切 块 )，282-285 
slowly changing dimension (缓慢 变化 的 维度 ) 
typel approach (类 型 | 方法 )，250-251 
type2 approach (类 型 2 方法 )，251-252 
type3 approach (类 型 3 方法 )，252-253 
snowflake model (雪花 模型 )，254 
software as a service, SaaS (软件 即 服 务 )，341 
source System ( 源 系 统 )，214-216 
specialization hierarchy ( 特 化 层次 )，331 
spreadsheets (电子 制 表 软件 )，288 
SOE .Ww SOE 
SQL/XML, 349-350 
star schema ( 星 形 模式 ) 
additional attribute ( 额外 属性 )，234-235 
characteristic ( 特性 )，229-230 
dimensional modeling (维度 建 模 )，226-229，23 1 
slowly changing dimension (缓慢 变化 的 维度 ), 
250-253 
structured query language, SQL (结构 化 查询 语言 ), 
7, 127=173 
structured repository (有 结构 的 数据 存储 )，213 
subclass (了 于 类 ) 
category (种 类 )，315 
EER, 311-316 
OODB concept (OODB 概念 )，331 
subject oriented (面向 主题 的 ) 210，213 
SUM ( 求 和 )，139-140，146 
summarized data (汇总 数据 )，214 
superclass ( 超 类 ) 
category (种 类 )，315-316 
EER, 311-316 
surrogate key (代理 码 )，230 


T 


table ( 表 ) 
designer-added (设计 者 添加 的 )，117-119 
relational database model (关系 数据 模型 )，57-58 
Teradata 
relational DBMS software (关系 数据 库 管 理 系统 
软件 )，10，57，127 
SQL syntax (SQL 语法 )，170-172 
ternary relationship (三 元 关系 ) 
defined (定义 )，45-49 
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graphical presentation (图 形 表 示 )}，52 
mapping (映射 )，84 
schema mapping rule (模式 映射 规则 )，88 
third normal form, 3NF (第 三 范式 )、104，109 
TIME data type (TIME 数据 类 型 )，170 
time variant data (时 变性 数据 )，213 
timeliness ( data quality) (及 时 性 (数据 质量 )). 
197-198，200 
timestamp (时 间 稚 )，2S2-253 
TIMESTAMP data type ( TIMESTAMP 数据 类 型 )， 
] 70 
total specialization (完全 特殊 化 )，312-315 
transaction control language, TCL (事务 控制 语言 ) 
127-128 
transaction identifier (事务 标识 码 )，235-237，239 
transaction-level detailed fact table (事务 级 细节 事 
实 表 )，249-250 
transaction time ( 事务 时 间 ) 235 
transactional information ( 事务 信息 )，10，207 
transitive functional dependency (传递 顺 数 依赖 ), 
101-102,，108、318-319 
trigger (触发 蔡 )，203 
trivial functional dependency (平凡 风 数 依 束 )，99- 
100 
tuple (元 组 )，S7 


U 


unary relationship (一 元 联系 ) 
defined (定义 )，28-30，44 
graphical presentation (图形 表 示 )，51 
mapping (映射)，74-75 
mapping rule (映射 规则 )，88 
unauthorized malicious data update ( 韭 授 权 的 恶意 
数据 更 新 )，307 
UNDER ，332 
unified modeling language ( UML ) notation (统一 
建 模 语言 (UML) 符号 体系 )，39 
union (并 )，155-156 
unique attribute (唯一 属性 ) 
defined (定义 )，14 
graphical presentation (图 形 表 示 )，50 
relational database (关系 数据 库 )，87 
unique composite attribute (唯一 复合 属性 )，61 
uniqueness ( data quality ) (唯一 性 (数据 质量 ))， 


197-198 ，200 
UPDATE (更 新 )，128，153-154，160-162 
update anomalies (更 新 异常 )，91，93-96 
UPDATE CASCADE (级 联 更 新 )，182 
update failure (更 新 失效 )，307 
update Speration (s)( ee ) 
defined (定义 )， 177 
delete operation ( 人 92 
insert operation (插入 操作 )，92 
modify operation (修改 操作 )，92-93 
type (类 型 )，91 
UPDATE RESTRICT (更 新 限制 )，181-182 
UPDATE SETTO-DEFAULT( 更 新 设置 为 默认 值 )， 
183 
UPDATE SETTO-NULL (更 新 设置 为 空 )， 
user-defined constraint ( 用户 目 定义 约束 ) 
assertion (扬言 )，202-203 
implementation (实现 )，18S-192 
relational database (关系 数据 库 )，78，81-83 
user-defined type, UDT (用 户 自 定义 类 型 )，331，- 
人 


182-183 


VARCHAR, 128 

vertical fragmentation (垂下 分 片 )，338 
view ( 视 岁 )，15S4 

view materialization (视图 物化 )，、303 


W 


week entity ( 暗 实 体 )，30-33，42，52，77-78、88 
Web page (Web 页 面 )，197 
WHERE，136-137，142-143 
write operation ( 写 操 作 )，91 


X 


XML 
document (文档 )，347 
element (元 素 )，347 
functionality (功能 )，347-352 
query (查询 )，348-352 
SQL/XML ，349-350 

XPath (XML 路 径 语 言 )，348 

XSL，350-352 

XQuery, 349 


